近日(ri),清(qing)華大學(xue)集成(cheng)電路(lu)學(xue)院(yuan)任天令(ling)教(jiao)授及合作團(tuan)隊在智能語音交互方面(mian)取(qu)得重要(yao)進展,其研發的可穿(chuan)戴人工喉可以感(gan)知喉部發聲(sheng)相關的多模態機(ji)械信號以用于語音識別,并依(yi)靠熱(re)聲(sheng)效(xiao)應播放對(dui)應的聲(sheng)音,研究結果為語音識別與交互系統提供(gong)了一(yi)條新的技術途徑。

圖1. 基(ji)于智能可穿戴人工喉的語音交(jiao)互(hu)范式
語音(yin)(yin)是(shi)人類(lei)交流的(de)(de)重(zhong)要方(fang)式(shi),但說話人的(de)(de)健康狀態(例如神經疾病、癌癥、外傷等原(yuan)因導致的(de)(de)聲(sheng)(sheng)音(yin)(yin)障礙)和(he)周圍環境(噪音(yin)(yin)干擾、傳(chuan)播介(jie)質(zhi))往往會影響聲(sheng)(sheng)音(yin)(yin)的(de)(de)傳(chuan)輸和(he)識(shi)(shi)別。研究人員一直在改進語音(yin)(yin)識(shi)(shi)別和(he)交互技術(shu)以應對微弱(ruo)的(de)(de)聲(sheng)(sheng)源或(huo)嘈雜(za)的(de)(de)環境。多通道聲(sheng)(sheng)學傳(chuan)感器(qi)可(ke)以顯著(zhu)提高聲(sheng)(sheng)音(yin)(yin)識(shi)(shi)別的(de)(de)精度(du),但會導致更(geng)大的(de)(de)設備(bei)體(ti)積。而可(ke)穿戴(dai)設備(bei)能夠獲取高質(zhi)量的(de)(de)原(yuan)始語音(yin)(yin)或(huo)其(qi)(qi)他生理信(xin)號(hao)。然而,目前尚無充分的(de)(de)證據(ju)表(biao)明喉部肌肉的(de)(de)運動(dong)模式(shi)和(he)反映在體(ti)表(biao)的(de)(de)發(fa)聲(sheng)(sheng)器(qi)官振(zhen)動(dong)中隱含(han)著(zhu)可(ke)識(shi)(shi)別的(de)(de)語音(yin)(yin)特征(zheng),且(qie)尚無實驗證明其(qi)(qi)作為(wei)語音(yin)(yin)識(shi)(shi)別技術(shu)的(de)(de)完(wan)備(bei)性(xing)。

圖2. 人工喉器件設計和性能表(biao)征(zheng)

圖3. 人工喉器件與麥克風采集的語音信(xin)息標(biao)注(zhu)和共振峰(feng)特征分析
為(wei)解決(jue)這一(yi)(yi)問題,任天令(ling)團隊成員開發了一(yi)(yi)款基于石墨(mo)烯的(de)(de)智能(neng)可(ke)穿戴(dai)人(ren)(ren)工(gong)喉(AT),同(tong)商業(ye)麥(mai)克風和壓電薄膜(mo)相比,人(ren)(ren)工(gong)喉對低(di)(di)頻的(de)(de)肌(ji)肉運動、中(zhong)頻食(shi)管振動和高(gao)頻聲波(bo)信息(xi)有很高(gao)的(de)(de)靈敏度(圖(tu)(tu)1、圖(tu)(tu)2),同(tong)時也(ye)具(ju)有抗噪聲的(de)(de)語(yu)音(yin)(yin)感知(zhi)(zhi)能(neng)力(圖(tu)(tu)2)。對聲學信號和機械(xie)運動的(de)(de)混(hun)合模態的(de)(de)感知(zhi)(zhi)使(shi)人(ren)(ren)工(gong)喉能(neng)夠獲(huo)得(de)更低(di)(di)的(de)(de)語(yu)音(yin)(yin)基頻信號(圖(tu)(tu)3)。此(ci)外(wai),該器件還可(ke)以(yi)通過(guo)熱聲效應實現聲音(yin)(yin)的(de)(de)播放功(gong)能(neng)。人(ren)(ren)工(gong)喉的(de)(de)制作過(guo)程簡單、性能(neng)穩定、易于集成,為(wei)語(yu)音(yin)(yin)識別和交互提供了一(yi)(yi)種新的(de)(de)硬件平臺。

圖(tu)4. 人工(gong)喉(hou)語(yu)音識別(bie)性能
團(tuan)隊還利用人(ren)(ren)工(gong)(gong)智能(neng)模型對(dui)人(ren)(ren)工(gong)(gong)喉(hou)(hou)感(gan)知的(de)信(xin)(xin)號進行(xing)語音(yin)(yin)(yin)(yin)識(shi)(shi)(shi)別(bie)和(he)合(he)成,實現了對(dui)基本語音(yin)(yin)(yin)(yin)元素(su)(音(yin)(yin)(yin)(yin)素(su)、聲(sheng)調和(he)詞語)的(de)高(gao)精度識(shi)(shi)(shi)別(bie),以(yi)及對(dui)喉(hou)(hou)癌患者(zhe)模糊(hu)語音(yin)(yin)(yin)(yin)的(de)識(shi)(shi)(shi)別(bie)與再(zai)現,為聲(sheng)音(yin)(yin)(yin)(yin)障礙(ai)者(zhe)的(de)溝通和(he)交互提供了一種創新的(de)解決(jue)方案。實驗(yan)結果(guo)表明(ming)(ming),人(ren)(ren)工(gong)(gong)喉(hou)(hou)采集(ji)的(de)混(hun)合(he)模態語音(yin)(yin)(yin)(yin)信(xin)(xin)號可(ke)以(yi)識(shi)(shi)(shi)別(bie)基本語音(yin)(yin)(yin)(yin)元素(su)(音(yin)(yin)(yin)(yin)素(su)、音(yin)(yin)(yin)(yin)調和(he)單詞),平均準確(que)率為99.05%。同時人(ren)(ren)工(gong)(gong)喉(hou)(hou)的(de)抗噪聲(sheng)性能(neng)明(ming)(ming)顯優于麥(mai)克風,在60dB以(yi)上環(huan)境噪聲(sheng)下(xia)仍能(neng)保持識(shi)(shi)(shi)別(bie)能(neng)力。任天令研究團(tuan)隊進一步演示了它的(de)語音(yin)(yin)(yin)(yin)交互式應用。通過集(ji)成AI模型,人(ren)(ren)工(gong)(gong)喉(hou)(hou)能(neng)夠識(shi)(shi)(shi)別(bie)一名(ming)喉(hou)(hou)切除術患者(zhe)模糊(hu)說(shuo)出(chu)的(de)日常詞匯,準確(que)率超過90%。識(shi)(shi)(shi)別(bie)出(chu)的(de)內容被(bei)合(he)成為語音(yin)(yin)(yin)(yin)在人(ren)(ren)工(gong)(gong)喉(hou)(hou)上播放,可(ke)以(yi)初步恢復患者(zhe)的(de)語音(yin)(yin)(yin)(yin)交流能(neng)力。

圖5. 使用(yong)智能可穿戴人工喉(hou)進行無(wu)聲語音交互
該人工喉還有很(hen)大的(de)(de)(de)(de)優化和(he)拓(tuo)展空間,例如提高聲音(yin)(yin)的(de)(de)(de)(de)質量和(he)音(yin)(yin)量,增加語音(yin)(yin)的(de)(de)(de)(de)多(duo)樣性和(he)表情,以(yi)及結(jie)合其(qi)他生理信(xin)號和(he)環境信(xin)息(xi)實現更(geng)(geng)自然和(he)智(zhi)能的(de)(de)(de)(de)語音(yin)(yin)交互(hu)。研(yan)究團(tuan)隊(dui)希望通過進(jin)一(yi)步(bu)的(de)(de)(de)(de)研(yan)究和(he)合作,讓人工喉造福更(geng)(geng)多(duo)的(de)(de)(de)(de)聲音(yin)(yin)障(zhang)礙者和(he)語音(yin)(yin)交互(hu)的(de)(de)(de)(de)用戶。
該成果以“使用可穿戴人工(gong)喉(hou)的混合模態語(yu)音(yin)識(shi)別與交互”(Mixed-modality speech recognition and interaction using a wearable artificial throat)為題,于2月24日(ri)在(zai)線發表在(zai)《自然》(Nature)人工(gong)智(zhi)(zhi)能(neng)子刊《自然·機器智(zhi)(zhi)能(neng)》(Nature Machine Intelligence)上。
論(lun)文通(tong)訊作(zuo)者(zhe)為清(qing)(qing)(qing)華(hua)大(da)(da)學(xue)(xue)(xue)集(ji)成(cheng)電(dian)路(lu)學(xue)(xue)(xue)院(yuan)(yuan)任天令教(jiao)授、田(tian)禾副(fu)教(jiao)授、楊軼副(fu)教(jiao)授和(he)上(shang)海交通(tong)大(da)(da)學(xue)(xue)(xue)醫學(xue)(xue)(xue)院(yuan)(yuan)羅清(qing)(qing)(qing)泉教(jiao)授,清(qing)(qing)(qing)華(hua)大(da)(da)學(xue)(xue)(xue)集(ji)成(cheng)電(dian)路(lu)學(xue)(xue)(xue)院(yuan)(yuan)2019級博士生楊其晟、上(shang)海交通(tong)大(da)(da)學(xue)(xue)(xue)醫學(xue)(xue)(xue)院(yuan)(yuan)2019級博士生金偉秋為共同第(di)一作(zuo)者(zhe)。該項(xiang)目得到了(le)國(guo)家自然科學(xue)(xue)(xue)基(ji)金委(wei)、科技(ji)部、教(jiao)育部霍(huo)英東基(ji)金、北京市自然基(ji)金委(wei)、清(qing)(qing)(qing)華(hua)大(da)(da)學(xue)(xue)(xue)國(guo)強研(yan)究院(yuan)(yuan)、清(qing)(qing)(qing)華(hua)大(da)(da)學(xue)(xue)(xue)佛山先進制造研(yan)究院(yuan)(yuan)、清(qing)(qing)(qing)華(hua)大(da)(da)學(xue)(xue)(xue)-豐田(tian)聯合研(yan)究院(yuan)(yuan)、清(qing)(qing)(qing)華(hua)-華(hua)發建筑(zhu)光電(dian)子技(ji)術(shu)聯合研(yan)究院(yuan)(yuan)等的支持(chi)。
① 凡(fan)本(ben)站(zhan)注(zhu)(zhu)明“稿(gao)件來源(yuan):中國(guo)教育在線(xian)”的(de)所(suo)(suo)有(you)文(wen)字(zi)、圖(tu)片和音視頻稿(gao)件,版(ban)權均屬本(ben)網(wang)所(suo)(suo)有(you),任何媒(mei)體、網(wang)站(zhan)或(huo)個人(ren)未經本(ben)網(wang)協議(yi)授權不得轉(zhuan)載(zai)、鏈接、轉(zhuan)貼或(huo)以其他方式復制發表。已經本(ben)站(zhan)協議(yi)授權的(de)媒(mei)體、網(wang)站(zhan),在下載(zai)使用(yong)時必(bi)須注(zhu)(zhu)明“稿(gao)件來源(yuan):中國(guo)教育在線(xian)”,違者本(ben)站(zhan)將(jiang)依法追究責(ze)任。
② 本站(zhan)注明稿(gao)(gao)件(jian)來源為(wei)其(qi)他媒體的(de)(de)(de)文/圖等稿(gao)(gao)件(jian)均為(wei)轉(zhuan)載(zai)稿(gao)(gao),本站(zhan)轉(zhuan)載(zai)出于非(fei)商業(ye)性的(de)(de)(de)教育和科研之目的(de)(de)(de),并不意味著贊同其(qi)觀點或(huo)證實其(qi)內容的(de)(de)(de)真實性。如轉(zhuan)載(zai)稿(gao)(gao)涉及版權等問題(ti),請作者在兩周(zhou)內速(su)來電或(huo)來函聯系。




中國教育在線
