Meta運用聖經譯本與錄音改進語音模型，現可支援超過千種語言

Meta大幅推進語音辨識技術，釋出的單一多語言語音辨識模型MMS（Massively Multilingual Speech）模型，能夠辨識超過4,000種的口說語言，而這個數量是目前已知技術的40倍。MMS也使得文字轉語音，以及語音轉文字技術，從原本只能用於約100種語言，現在擴展到1,107種。

要訓練出能夠辨識大量語言的模型，Meta第一個遭遇到的困難是收集各種語言的音訊資料，目前最大的語音資料集，也只不過涵蓋100種語言而已，研究人員想到一個克服難題的方法，是利用聖經等宗教文本，這些文本已經被大量翻譯成各種不同的語言，而且聖經翻譯本也被廣泛地用在文字語言翻譯研究上。

這些宗教文本翻譯也有公開的錄音，因此Meta研究人員利用這些錄音，創建出1,100多種語言的新約聖經音訊資料集，每種語言平均有32小時的錄音資料。除了聖經之外，還有許多基督教宗教讀物無標籤錄音，也能夠被拿來訓練模型，使Meta得以將可用語言數量擴增至4,000多種。

Meta研究人員提到，經過他們的分析，雖然這些錄音資料主要都是男性說話者的聲音，但MMS模型處理男性和女性聲音的效能表現一致，另外，訓練資料內容來自於宗教，不過這並不會使模型產生更多的宗教語言。

語音技術被大量用在虛擬以及增強實境上，目的是讓每個使用者透過母語，理解網路上其他人的話語，官方也表示，目前地球已知有7,000多種語言，許多語言正不斷的消失，更強大的語言技術將有助於保護這些語言。Meta現在開源MMS模型以及程式碼，供研究社群能夠以這些基礎進行後續研究。

熱門新聞