Meta周一(11/10)推出全新的Omnilingual ASR(Omnilingual Automatic Speech Recognition,全語言自動語音辨識系統),一次支援超過1600種語言,為目前全球語音AI覆蓋最廣的系統。此技術由Meta FAIR(Fundamental AI Research)所打造,並同步開源模型與語料,被視為語音科技全球化最重要的突破之一。

Meta表示,語音辨識長期集中於英語、中文、西班牙語等高資源語言,依賴大量人工標註資料,使得全球許多弱勢語言在數位化過程中持續被排除。Meta指出,此落差造成語音AI的全球普及性大幅受限,而Omnilingual ASR正是針對此一根本問題所設計。

在Omnilingual ASR支援的1600多種語言中,有249種高資源語言(每語言至少50小時語料)、881種中資源語言(10至50小時),以及546種低資源語言(少於10小時)。換言之,超過8成語言屬於中低資源,是傳統ASR最難處理的領域。當採用目前最強的7B-LLM-ASR模型,高與中資源語言中有95%能實現字元錯誤率(CER)低於10%;在語料稀少的546種低資源語言中,也有195種(36%)能達到CER低於10%。整體而言,在1600多種語言中,78%語言的CER低於10%,顯示模型具高度泛化能力。

為支援如此大規模的語言涵蓋,Meta將語音基礎模型wav2vec 2.0擴展至70億參數(7B),並提供CTC(Connectionist Temporal Classification)與基於Transformer架構的大型語言模型式解碼器(LLM-ASR)等兩種解碼架構。後者特別強化長尾語言表現,使模型能在極少語料下依然保持可用準確度。

另一項關鍵突破是「Bring Your Own Language(自帶語言)」能力。使用者只需提供少量音訊與文字配對樣本,即可擴展至未支援語言,依靠的正是大型語言模型的情境式學習能力,讓語音辨識能以極低門檻覆蓋更多語言社群。

Meta同步釋出Omnilingual ASR Corpus,含350種弱勢語言,由全球母語者錄製,是目前最大的超低資源語音資料集。所有模型以Apache 2.0授權開源,語料則採CC-BY釋出,並與Mozilla Common Voice及Lanfrica等組織合作,使資料更貼近當地語境。

Meta表示,Omnilingual ASR的願景是打造全球性的語音基礎設施,讓語音AI不再只屬於主流語言,而能真正服務全球所有語言與文化。

熱門新聞

Advertisement