Mozilla公開現今最大的多語言語音資料集,其中收集了18種語言的語音,包括英語、法語、德語和正體中文,另外還有威爾士語和卡比爾語等,新資料集收集了來自42,000人的聲音,組成1,400小時的語音片段。

在2017年Mozilla啟動了Common Voice群眾外包計畫,其目的是要收集多元語言的聲音資料集,現已經成為全世界最大的人類語音資料庫。雖然Google、蘋果及亞馬遜等都打造了自己的語音辨識服務,但Mozilla認為,由大廠控制的語音辨識生態圈,可能阻擋其他新進入者,而且大廠通常只注重主流語言,因此Mozilla希望透過向群眾募集語音,以CC 0授權供給其他想要進行語音控制研究的學術單位或是新創公司使用。Common Voice在2018年6月開始支援多語言,收集包括正體中文語音等22種語言。

Common Voice資料集不僅在數量上讓其他語音資料集望塵莫及,而且語音來源遍及全球,讓語音多樣性更是獨一無二的豐富。這些貢獻者可以選擇提供年齡、性別和口音等多元資料,以便提供更多的語音片段標籤給訓練語音引擎使用。

Mozilla提到,通常資料集都需要手動調整多樣性以及男女人數比例,不然就會像TED talks的TEDLIUM語料庫,因為男性演講人是女性的3倍,導致資料集的多樣性受到影響。

Common Voice在2018年啟動多語言支援後,現在已經收集到了22種語言的語音,最新的包括荷蘭語、世界語,波斯語,巴斯克語和西班牙語。最近Mozilla還與Deutsche Gesellschaft für Internationale Zusammenarbeit(GIZ)合作,在盧安達首都吉佳利的舉辦黑客松,為當地創建了語音資料庫,幫助盧安達開源語音技術開發。

而Mozilla啟動Common Voice一部分的原因,也是要供給自家的DeepSpeech專案使用,開發語音轉文字和文字轉語音引擎以及訓練模型使用。目前為止,DeepSpeech已經可以用人類的精準度,即時將語音轉換成文字,可為串流語音進行即時轉換,在演講、電話交談、電視節目、廣播節目和其他網路直播節目都可以應用。

DeepSpeech現在已經被使用在多個Mozilla專案中,包括開源語音助理Mycroft、個人助理Leon以及用於私人組織轉錄電話訊息的電話交換系統FusionPBX。Mozilla提到,未來DeepSpeech還會上到較小的平臺裝置,像是智慧手機或是車載系統。

Mozilla根據社群的回饋進行了可用性研究,以持續改善Common Voice網站,並設法讓貢獻過程更加有趣,以鼓勵更多的人持續貢獻他們的聲音,因此貢獻者可以在錄製和驗證的過程中,看到每種語言的進度,並改善了移動到剪輯片段的提示。貢獻介面增加了審查、重新錄製以及跳過剪輯等新功能,方便貢獻者操作語音錄製,另外,現在也可以創建儲存配置文件,跨多語言追蹤貢獻者自己的進度以及指標。


Advertisement

更多 iThome相關內容