AWS開源支援51種語言的數位助理AI訓練資料集、程式碼

圖片來源:

Amazon

Amazon本周釋出名為MASSIVE的資料集，供開發商訓練能理解多種語言的數位助理使用的AI模型。

到2023年全球將因智慧型手機的普及而有80多億個AI虛擬助理，還有超過1億臺智慧喇叭。然而大部份虛擬助理都僅能使用1種或僅數種主流語言。此外這些數位助理的訓練還面臨標註資料不足、去除資料訛誤、維護和更新模型的成本等問題，進一步限制了數位助理的口語翻譯的能力。

大量多語自然語言理解（massively multilingual natural-language understanding，MMNLU）模型即希望解決這個問題。Amazon Alexa AI自然語言理解部門科學家Jack FitzGerald指出，這願景下，單一機器學習模型能分析和理解多種語言。透過學習跨語言的共享資料展現（data representation），這個模型可以從有很豐富訓練資料的主流語言學習到的知識，轉移到資料很稀少的語言上。

為推動MMNLU模型建立，Amazon宣布釋出MASSIVE資料集。MASSIVE資料集包含跨51種語言加註過的100萬項話語或單詞（utterance）及開源程式碼。資料集包括訓練、驗證和測試資料，後者則提供MMNLU模型的執行範例，協助AI專案人員建立意圖分類（intent classification）或詞槽填充（Slot Filling）的結果基準線（baseline）。

MASSIVE為平行資料集，意謂每個單詞都有51種語言版本，這可讓模型學習到同一意圖的共享表達方式，可加速自然語言理解（NLP）任務的跨語言訓練，也能用於其他NLP任務，如機器翻譯、多語複述（multilingual paraphrasing）等等。MASSIVE透過CC BY 4.0授權開源，以鼓勵學界及業界使用。

Amazon同時還宣布MMNLU-22競賽（Massively Multilingual NLU 2022），鼓勵開發人員利用MASSIVE資料集建立模型。

熱門新聞