Meta大幅推進語音辨識技術,釋出的單一多語言語音辨識模型MMS(Massively Multilingual Speech)模型,能夠辨識超過4,000種的口說語言,而這個數量是目前已知技術的40倍。MMS也使得文字轉語音,以及語音轉文字技術,從原本只能用於約100種語言,現在擴展到1,107種。

要訓練出能夠辨識大量語言的模型,Meta第一個遭遇到的困難是收集各種語言的音訊資料,目前最大的語音資料集,也只不過涵蓋100種語言而已,研究人員想到一個克服難題的方法,是利用聖經等宗教文本,這些文本已經被大量翻譯成各種不同的語言,而且聖經翻譯本也被廣泛地用在文字語言翻譯研究上。

這些宗教文本翻譯也有公開的錄音,因此Meta研究人員利用這些錄音,創建出1,100多種語言的新約聖經音訊資料集,每種語言平均有32小時的錄音資料。除了聖經之外,還有許多基督教宗教讀物無標籤錄音,也能夠被拿來訓練模型,使Meta得以將可用語言數量擴增至4,000多種。

Meta研究人員提到,經過他們的分析,雖然這些錄音資料主要都是男性說話者的聲音,但MMS模型處理男性和女性聲音的效能表現一致,另外,訓練資料內容來自於宗教,不過這並不會使模型產生更多的宗教語言。

語音技術被大量用在虛擬以及增強實境上,目的是讓每個使用者透過母語,理解網路上其他人的話語,官方也表示,目前地球已知有7,000多種語言,許多語言正不斷的消失,更強大的語言技術將有助於保護這些語言。Meta現在開源MMS模型以及程式碼,供研究社群能夠以這些基礎進行後續研究。

熱門新聞

Advertisement