為加速語音辨識相關技術及應用的發展,Mozilla去年發起開源語音募集專案Common Voice(同聲計畫),在6月底開始募集正體中文音檔,鼓勵民眾獻聲,以協助正體中文語音資料庫的建立。

去年7月啟動的Common Voice專案,目的是收集訓練語音辨識所需的語音資料,根據Mozilla統計,迄今已有超過200位開發者參與這項計畫的軟體開發,目前已募集112個國家超過2.4萬人貢獻的聲音,蒐集超過900個小時的語音資料,是全球僅次於磁帶書LibriSpeech資料庫的全球第二大開源語音資料庫,預估年底可望成為全球最大的開源語音資料庫。

Common Voice專案已有60種語言版本,但由於人手不足,現在已開始收集15種語言的語音檔,除了英文語音外,6月開始募集德語、法語、威爾斯語錄音檔,正體中文語音也在6月底開始募集。

帶領Common Voice專案的Mozilla開放創新部門數位策略師Michael Henretty表示,語音辨識不僅要能辨識語言,還要能理解自然語言,由於辨識涉及深度學習,需要昂貴的運算系統、大量的語音資料,目前的語音助理技術大多掌握在幾家大廠手中,商業化的語音辨識技術也忽略非主流語言的聲音,Mozilla希望透過Common Voice收集不同國家、語言、性別或年齡的聲音建立一個全球最大的開源語音資料集,讓語音辨識術能夠民主化,也為沒有受過教育、視障者、兒童或老年人等弱勢族群降低資訊存取的門檻。

目前該專案已募集超過900小時的音檔,以英語音檔最多,去年底至今年初Common Voice已開放英語資料集下載,為方便外界使用,採用CC 0授權。至於非英語的其他語言,法語及德語各有約50個小時音檔,正體中文在6月底才剛開始募集,為亞洲地區第一個展開募集的語言,現在已有36小時音檔。

非英語的語言資料集目前尚未開放,Michael Henretty表示,英語的語音資料集在募集的6個月後開放,至於正體中文的資料集何時會開放,目前還沒有明確的時程。Common Voice專案希望未來募集足夠的語音資料後可以穩定的發佈語音資料集的更新版本。

Common Voice專案的理想目標,是希望能夠儘量收集到不同國家、不同語言,不同性別、年齡層的語音資料,如此才能讓資料集發揮更大的效用,以該資料集打造的語音辨識技術能夠正確辨識語音。至於需要募集多少的語音資料,Michael Henretty認為如果能夠募集到1萬個小時,相信能讓運用Common Voice的開源語音資料集的語音辨識技術做到和Google相近的水準。 

專案收集到語音資料除了和Mycroft、Snips.AI、威爾斯的Bangor大學等新創或學校進行語音相關技術的合作外,資料也會運用在Mozilla的語音辨識引擎「深度語音辨識」(Project DeepSpeech)專案上。

有興趣捐出自己聲音的民眾可以前往網站,iOS用戶可以下載app利用手機錄製音檔,Android用戶則可以手機瀏覽器。如下圖所示,民眾進入Common Voice募集網頁後,可點選「說話」,依照指引對著麥克風唸出螢幕上秀出的中文字句,或是點選「聆聽」協助校正,系統會秀出一個中文句子並唸出聲音,使用者協助確認唸出的語音是否和句子相符即可。


Advertisement

更多 iThome相關內容