圖片來源: 

Google

Google的文字轉語音(Text-To-Speech)功能原本使用在Google助理或是Google Map等服務上,現在Google推出雲端文字轉語音服務,開發者也可以在自己的應用程式上添加語音功能了。另外,Google還表示,雲端文字轉語音使用了高傳真人聲合成技術WaveNet,讓電腦發音更像真正的人聲。

Google表示,不少開發者向他們反應,也想要將文字轉語音的功能,使用在自己的應用上,因此他們把這項功能放到Google雲端平臺,推出雲端文字轉語音服務。

開發者現在可以將雲端文字轉語音服務用在語音回應系統,像是呼叫中心(IVRs),也能在電視、汽車或是機器人等物聯網裝置,建置語音回應功能,或是在以文字為主的媒體上,將文章與書轉成音訊。

Google雲端文字轉語音使用了DeepMind所創建的聲音生成模型WaveNet,這個高傳真的人聲合成技術,可以讓電腦合成的語音更自然。

WaveNet是2016年DeepMind發表的技術,但是到了今日已有很大的進步。以速度來說,WaveNet現在Google的雲端TPU基礎設備上運作,比起初代,產生原始波形的速度快了一千倍,而且產生1秒鐘的語音只需要50毫秒。

除了速度提高千倍,產生語音的擬真度也得到了長足的提升,WaveNet能夠建立每秒24,000樣本的高傳真波形,且採樣分辨率從原本8位元提升到了16位元,因此所得到的人聲語音品質更好更自然。

Google表示,比起市面上的電腦語音,人們對WaveNet所合成的語音有更高的接受度。而在語音測試中,WaveNet合成的新美國英語語音,平均得分4.1,比起標準聲音好20%,也與真實人類語音差距減少70%

雲端文字轉語音功能現在支援32種聲音12種語言,開發者可以客製化音調、語速以及音量增益,並且能轉存為MP3或是WAV等各式音訊格式。


Advertisement

更多 iThome相關內容