圖片來源: 

cc by A Health Blog/Flickr

Google於本周二(12/19)揭露新一代文字轉語音(Text-To-Speech,TTS)系統Tacotron 2,結合原版Tacotron和音頻生成模型WaveNet,透過神經網路架構來轉換文字為語音。同時,Google也釋出Tacotron 2所產生的音頻範本。

新版Tacotron系統是由周期性的序列到序列(Sequence-To-Sequence)特徵預測網路模型所組成,並透過序列到序列模型,來對應字母序列和音頻特徵序列,讓文字轉為語音。

Tacotron 2模型架構圖,圖片下方為描述序列到序列模型對應字母序列和音頻特徵序列。(圖片來源/Google)

而Google使用語音範例和相對應的文字文本,取代複雜的語言和聲音特徵,並透過神經網路來訓練文字轉語音系統。

Google在官方部落格表示,Tacotron系統的功能不僅可以捕捉單詞的發音,也能捕捉各種真人語音的細節,如音量、語速和語調等。最後,由類似WaveNet的架構來轉換為24K赫茲的音頻。

另外,Google也請真人來為Tacotron 2系統所產生的音頻評分,結果Tacotron 2系統的音頻與專業真人錄音的自然程度相當。

不過,Google也表示,Tacotron 2系統仍有許多挑戰,例如,Tacotron 2難以發出複雜發音的單詞、Tacotron 2還無法即時產生音頻、研究人員目前還無法控制Tacotron 2產生的音頻的語調情緒等。

 


Advertisement

更多 iThome相關內容