Mozilla釋出最新長達7,226個小時的Common Voice語音資料集

Mozilla的開源語音辨識引擎專案同聲計畫（Common Voice）釋出最新的語音資料集，總共含有7,226個小時的語音資料，而且除了資料集的時間長度持續累積增加之外，多元性也不斷地提升，最新的版本新增了14種資源稀有的語言，現在總共有54種語言的錄音。

同聲計畫的目的是要提供Mozilla維護的語音轉文字引擎DeepSpeech，有足夠的訓練資料使用，且該語音資料集不僅包含語音片段，還包含了貢獻者自願提供的元資料，可用來訓練語音引擎，具有像是年齡、性別和口音等特徵。

這個新版本擁有550萬個語音剪輯，平均每個剪輯為4.7秒，在長達7,226個小時的語音中，已經有5,591小時已經由社群貢獻者確認為有效語音資料，Mozilla特別提到，英文、德文、法文、義大利文和西班牙文，總共有超過5,000位的語音貢獻者。

另外，Mozilla這次還發布了一個針對特殊用途的單字目標字串資料集，這是針對用於特殊使用情境的字串語音資料集，其中包含了用來進行語音數字辨識、喚醒詞等測試資料，其收集數字0到9的發音，還有Hey與Firefox等單字語音。

單字目標字串資料集總共有120個小時，由11,000人在一個月內使用18種語言創建而成，同聲計畫的產品負責人Megan Branson提到，這個細分資料集將會用在Deep Speech的準確性基準測試中，以不同的語言完成相似的任務，在獲得回饋細節後，知道繼續改進資料集的方法。

熱門新聞