Mozilla的開源語音辨識引擎專案同聲計畫(Common Voice)釋出最新的語音資料集,總共含有7,226個小時的語音資料,而且除了資料集的時間長度持續累積增加之外,多元性也不斷地提升,最新的版本新增了14種資源稀有的語言,現在總共有54種語言的錄音。

同聲計畫的目的是要提供Mozilla維護的語音轉文字引擎DeepSpeech,有足夠的訓練資料使用,且該語音資料集不僅包含語音片段,還包含了貢獻者自願提供的元資料,可用來訓練語音引擎,具有像是年齡、性別和口音等特徵。

這個新版本擁有550萬個語音剪輯,平均每個剪輯為4.7秒,在長達7,226個小時的語音中,已經有5,591小時已經由社群貢獻者確認為有效語音資料,Mozilla特別提到,英文、德文、法文、義大利文和西班牙文,總共有超過5,000位的語音貢獻者。

另外,Mozilla這次還發布了一個針對特殊用途的單字目標字串資料集,這是針對用於特殊使用情境的字串語音資料集,其中包含了用來進行語音數字辨識、喚醒詞等測試資料,其收集數字0到9的發音,還有Hey與Firefox等單字語音。

單字目標字串資料集總共有120個小時,由11,000人在一個月內使用18種語言創建而成,同聲計畫的產品負責人Megan Branson提到,這個細分資料集將會用在Deep Speech的準確性基準測試中,以不同的語言完成相似的任務,在獲得回饋細節後,知道繼續改進資料集的方法。


Advertisement

更多 iThome相關內容