記者23日從內(nèi)蒙古大學(xué)計算機學(xué)院獲悉,該院劉瑞研究員所在科研團隊與日本大阪大學(xué)科學(xué)與工業(yè)研究所科研團隊合作,在國際信號處理領(lǐng)域TOP期刊《IEEE/ACM音頻、語音和語言處理會刊》發(fā)表了“通過源濾波網(wǎng)絡(luò)將獨立于說話人的情感解耦以進行語音轉(zhuǎn)換”的最新研究成果。
據(jù)介紹,情感語音轉(zhuǎn)換(VC)旨在將中性語音轉(zhuǎn)換為情感聲音,同時保留語言信息和說話者的身份??蒲袌F隊注意到,將情感特征與其他語音信息(例如內(nèi)容、說話者身份等)解耦是實現(xiàn)高質(zhì)量轉(zhuǎn)換效果的關(guān)鍵。由于情感語音中聲學(xué)特征的解耦更加復(fù)雜,面向中性語音的特征解耦一直無法得到很好的處理。
科研團隊針對情感語音轉(zhuǎn)換的聲學(xué)特征解耦問題開展研究,提出了一種基于“源—濾波器”模型的情感語音轉(zhuǎn)換系統(tǒng),具體來說,是為了解決情感語音轉(zhuǎn)換的特征解耦問題而提出一種新穎的基于“源—濾波器”模型的情感VC模型(簡稱SFEVC),以從音色和音調(diào)特征中準確過濾說話人獨立的情感線索。SFEVC模型由多通道編碼器、情感獨立編碼器、預(yù)訓(xùn)練的說話人相關(guān)編碼器和相應(yīng)的解碼器組成。所有編碼器模塊都采用信息瓶頸自動編碼器。
為了進一步提高各種情緒的轉(zhuǎn)化質(zhì)量,研究團隊還提出了基于二維VA(激活度—效價)空間的訓(xùn)練策略。實驗結(jié)果表明,SFEVC模型以及VA訓(xùn)練策略的表現(xiàn)均優(yōu)于所有基線系統(tǒng),并基于非平行數(shù)據(jù)在說話人無關(guān)的情感VC場景下實現(xiàn)了最優(yōu)性能。 (記者張景陽通訊員胡紅波)