Google翻譯新增對梵文等24種語言的支援

圖片來源:

Google

Google本周宣布，Google翻譯（Google Translate）將新增包括梵文在內的24種語言的支援，讓Google Translate所能翻譯的語言類別達到133種。

此次新增的24種語言多半出現在印度或非洲，屬於相對冷門的語言，當中最受歡迎的是擁有5,000萬使用人口的Bhojpuri，而最少的則是只有2萬人仍在使用的梵文。此外，這24種語言也是首批採用零樣本機器翻譯（Zero-Shot Machine Translation）而出爐的成品。

圖片來源／Google

目前全球大約有3億人口使用這24種語言，除了5,000萬散落在北印、尼泊爾與斐濟的人口說著Bhojpuri之外，非洲約有4,000萬人口使用Lingala，非洲的衣索比亞及肯亞有3,700萬人口使用Oromo，北印有3,400萬人口使用Maithili，印度東北方有2,500萬人口使用Assamese。

Google表示，即使現有的翻譯服務覆蓋了全球大多數人使用的語言，但這些語言只有100種左右，約占全球所說語言的1%，況且熱門的語言多半集中在歐洲，而非洲或美洲的許多語言都被忽略。

Google指出，要替這些冷門語言建立翻譯模型並不容易，它們不僅缺乏數位資料，也因語言辨識（LangID）模型品質不佳而難以自網路上蒐集，再加上機器翻譯（ML）模型通常需要在大量平行翻譯文本上進行訓練，在缺乏這類的資料時，ML模型只能自有限的單語文本學習。

對於讓Google Translate新增對上述24種缺乏資源的語言的翻譯能力，Google則是開發了專門的神經語言辨識模型，再輔以新穎的過濾方式，來建立單語資料集。

Google先是針對逾1,000種語言訓練了一個基於Transformer的半監督LangID模型。此一模型利用MAsked Sequence-to-Sequence（MASS）來強化LangID的任務，MASS會隨機移除所輸入的標記序列，簡單地混淆輸入，並訓練該模型來預測這些序列。Google把此一LangID模型應用在一個已經由CLD3語言辨識模型過濾的資料集，再訓練它來辨識類似的語言叢集。

接著以權衡文字重要性的開源 Term Frequency-Inverse Internet Frequency（TF-IIF）專案來過濾該資料集，去除屬於高資源語言的句子，並開發各種特定語言的過濾器來移除異常。

經過層層的過濾之後，終於得到了支援上千種語言、具備單語文本的資料集，當中有400種語言擁有超過10萬個句子，在以人力評估其中的68種語言後，發現有超過7成具備高品質的語言內容。

有了此一資料集之後，Google開發了一種簡單卻實用的零資源翻譯作法，所謂的零資源指的是它們既無平行翻譯文本，也沒有特定語言的翻譯例子。不過，除了單語文本之外，該模型也搭配了所有豐富資源語言的平行翻譯文本，藉以訓練模型的翻譯能力，並透過MASS來讓該模型如何僅自單語文本來學習這些語言的表示方法，這讓Google得以訓練出一個支援1,138種語言的大型翻譯模型。

此次被Google Translate納入的24種語言想必是當中品質相對較高的成品。Google指出，它們是該公司採用零樣本機器翻譯的首批語言，沒有看過任何樣本就能翻譯成其它語言，只是就算該技術令人印象深刻，卻不完美，未來將持續改善相關的各種模型，以讓這些冷門語言的翻譯效果足以比美西班牙文或德文。

熱門新聞