Google發表二代文字轉語音技術，讓AI講話不再有機械腔、自然程度媲美人聲

圖片來源:

cc by A Health Blog/Flickr

Google於本周二（12/19）揭露新一代文字轉語音（Text-To-Speech，TTS）系統Tacotron 2，結合原版Tacotron和音頻生成模型WaveNet，透過神經網路架構來轉換文字為語音。同時，Google也釋出Tacotron 2所產生的音頻範本。

新版Tacotron系統是由周期性的序列到序列（Sequence-To-Sequence）特徵預測網路模型所組成，並透過序列到序列模型，來對應字母序列和音頻特徵序列，讓文字轉為語音。

Tacotron 2模型架構圖，圖片下方為描述序列到序列模型對應字母序列和音頻特徵序列。（圖片來源／Google）

而Google使用語音範例和相對應的文字文本，取代複雜的語言和聲音特徵，並透過神經網路來訓練文字轉語音系統。

Google在官方部落格表示，Tacotron系統的功能不僅可以捕捉單詞的發音，也能捕捉各種真人語音的細節，如音量、語速和語調等。最後，由類似WaveNet的架構來轉換為24K赫茲的音頻。

另外，Google也請真人來為Tacotron 2系統所產生的音頻評分，結果Tacotron 2系統的音頻與專業真人錄音的自然程度相當。

不過，Google也表示，Tacotron 2系統仍有許多挑戰，例如，Tacotron 2難以發出複雜發音的單詞、Tacotron 2還無法即時產生音頻、研究人員目前還無法控制Tacotron 2產生的音頻的語調情緒等。

熱門新聞