Facebook研究員近日開源了他們在今年七月發(fā)表的一篇論文(Voice Synthesis for in-the-Wild Speakers via a Phonological Loop)中的語音合成方法。
在論文中,他們提出了一種新的文字轉(zhuǎn)語音的神經(jīng)網(wǎng)絡(luò)方法,可以將從開放場景下采樣到的聲音中提取的文字轉(zhuǎn)化為語音。不同于其他的文字轉(zhuǎn)語音系統(tǒng),這種方法能夠處理從公開演講中提取出來的非約束性的樣本,而且網(wǎng)絡(luò)架構(gòu)比現(xiàn)存的解決同樣問題的架構(gòu)要簡單。它基于新的移位緩沖內(nèi)存儲器區(qū)(shifting buffer working memory),這個緩沖區(qū)也可以用于評估注意力,計算輸出音頻,以及自身的更新。
通過使用與上下文無關(guān)( context-free)的查找表對輸入語句進(jìn)行編碼,該表的每個條目包含一個字符或音素。同樣,能通過一個短向量來表示說話者,這個短向量也適用于新說話者。而且在生成音頻之前,優(yōu)先準(zhǔn)備好緩沖區(qū)可以使生成的語音具有可變性。
上圖為實驗樣例中生成的注意力圖,X 軸是輸出時間(聲學(xué)樣本),Y 軸是輸入(文本/音素)。
代碼地址:https://github.com/facebookresearch/loop
論文地址:https://arxiv.org/abs/1707.06588