Google發表雲端文字轉語音服務，人聲發音更好、更自然

圖片來源:

Google

Google的文字轉語音（Text-To-Speech）功能原本使用在Google助理或是Google Map等服務上，現在Google推出雲端文字轉語音服務，開發者也可以在自己的應用程式上添加語音功能了。另外，Google還表示，雲端文字轉語音使用了高傳真人聲合成技術WaveNet，讓電腦發音更像真正的人聲。

Google表示，不少開發者向他們反應，也想要將文字轉語音的功能，使用在自己的應用上，因此他們把這項功能放到Google雲端平臺，推出雲端文字轉語音服務。

開發者現在可以將雲端文字轉語音服務用在語音回應系統，像是呼叫中心（IVRs），也能在電視、汽車或是機器人等物聯網裝置，建置語音回應功能，或是在以文字為主的媒體上，將文章與書轉成音訊。

Google雲端文字轉語音使用了DeepMind所創建的聲音生成模型WaveNet，這個高傳真的人聲合成技術，可以讓電腦合成的語音更自然。

WaveNet是2016年DeepMind發表的技術，但是到了今日已有很大的進步。以速度來說，WaveNet現在Google的雲端TPU基礎設備上運作，比起初代，產生原始波形的速度快了一千倍，而且產生1秒鐘的語音只需要50毫秒。

除了速度提高千倍，產生語音的擬真度也得到了長足的提升，WaveNet能夠建立每秒24,000樣本的高傳真波形，且採樣分辨率從原本8位元提升到了16位元，因此所得到的人聲語音品質更好更自然。

Google表示，比起市面上的電腦語音，人們對WaveNet所合成的語音有更高的接受度。而在語音測試中，WaveNet合成的新美國英語語音，平均得分4.1，比起標準聲音好20％，也與真實人類語音差距減少70％

雲端文字轉語音功能現在支援32種聲音12種語言，開發者可以客製化音調、語速以及音量增益，並且能轉存為MP3或是WAV等各式音訊格式。

熱門新聞