Google打敗世界棋王後,再用人工智慧模擬人聲,甚至還會唱歌

Google母公司Alphabet旗下的人工智慧研究部門DeepMind,於2016年9月9日日發表電腦合成人聲系統WaveNet,DeepMind宣稱可以將真人與合成人聲的差距縮小至百分之五十。

許多現有的文本與語音功能,主要紀錄人類片段的聲音檔,例如,同一個人的各種聲音變化等,來大規模擴大資料庫,過去透過電腦模擬人聲時,需要把人類的聲音打散之後,再重新組合,透過這種方式,難以模擬出自然的人聲。

為了克服此問題,DeepMind利用WaveNet技術,透過具備龐大的運算能力,以分析原始的人聲,並透過多層次的神經網路(Deep Neuron Networks,DNN),加以修正原先不自然的合成人聲。DeepMind指出,WaveNet能夠直接模擬聲音的RAW波形,並能夠在合成人聲之中分別男性與女性的聲音,與加入感情與語調,甚至會唱歌。

聲音品質評價法Mean Opinion Scores(MOS)可以衡量英語、中文的擬人生的真實度,而WaveNet中的英語MOS値為4.55,中文則為4.21。

DeepMind為Google於2014年以4億英鎊所併購的人工智慧公司,尤其以開發人工智慧AlphaGo,於今年3月中,並以4勝1敗的成績,打敗南韓籍圍棋棋王李世石(Lee Se-dol)成為人機大戰的最終贏家而聞名。

 


更多 iThome相關內容

Advertisement