Mozilla公開全球最大公共領域轉錄語音資料集

Mozilla公開現今最大的多語言語音資料集，其中收集了18種語言的語音，包括英語、法語、德語和正體中文，另外還有威爾士語和卡比爾語等，新資料集收集了來自42,000人的聲音，組成1,400小時的語音片段。

在2017年Mozilla啟動了Common Voice群眾外包計畫，其目的是要收集多元語言的聲音資料集，現已經成為全世界最大的人類語音資料庫。雖然Google、蘋果及亞馬遜等都打造了自己的語音辨識服務，但Mozilla認為，由大廠控制的語音辨識生態圈，可能阻擋其他新進入者，而且大廠通常只注重主流語言，因此Mozilla希望透過向群眾募集語音，以CC 0授權供給其他想要進行語音控制研究的學術單位或是新創公司使用。Common Voice在2018年6月開始支援多語言，收集包括正體中文語音等22種語言。

Common Voice資料集不僅在數量上讓其他語音資料集望塵莫及，而且語音來源遍及全球，讓語音多樣性更是獨一無二的豐富。這些貢獻者可以選擇提供年齡、性別和口音等多元資料，以便提供更多的語音片段標籤給訓練語音引擎使用。

Mozilla提到，通常資料集都需要手動調整多樣性以及男女人數比例，不然就會像TED talks的TEDLIUM語料庫，因為男性演講人是女性的3倍，導致資料集的多樣性受到影響。

Common Voice在2018年啟動多語言支援後，現在已經收集到了22種語言的語音，最新的包括荷蘭語、世界語，波斯語，巴斯克語和西班牙語。最近Mozilla還與Deutsche Gesellschaft für Internationale Zusammenarbeit（GIZ）合作，在盧安達首都吉佳利的舉辦黑客松，為當地創建了語音資料庫，幫助盧安達開源語音技術開發。

而Mozilla啟動Common Voice一部分的原因，也是要供給自家的DeepSpeech專案使用，開發語音轉文字和文字轉語音引擎以及訓練模型使用。目前為止，DeepSpeech已經可以用人類的精準度，即時將語音轉換成文字，可為串流語音進行即時轉換，在演講、電話交談、電視節目、廣播節目和其他網路直播節目都可以應用。

DeepSpeech現在已經被使用在多個Mozilla專案中，包括開源語音助理Mycroft、個人助理Leon以及用於私人組織轉錄電話訊息的電話交換系統FusionPBX。Mozilla提到，未來DeepSpeech還會上到較小的平臺裝置，像是智慧手機或是車載系統。

Mozilla根據社群的回饋進行了可用性研究，以持續改善Common Voice網站，並設法讓貢獻過程更加有趣，以鼓勵更多的人持續貢獻他們的聲音，因此貢獻者可以在錄製和驗證的過程中，看到每種語言的進度，並改善了移動到剪輯片段的提示。貢獻介面增加了審查、重新錄製以及跳過剪輯等新功能，方便貢獻者操作語音錄製，另外，現在也可以創建儲存配置文件，跨多語言追蹤貢獻者自己的進度以及指標。

熱門新聞