Google在其最新一系列的機器翻譯的研究,使用超過100種語言共計250億個句子,訓練單一神經機器翻譯(Neural Machine Translation,NMT)模型,結果顯示,這種大量語言的大規模神經機器翻譯方法(M4)無論是在低資源還是多資源的語言上,都能大幅改進語言翻譯品質。

Google表示,過去幾年機器翻譯的品質有很大幅的進展,但這些進展極大程度歸功於大量監督式訓練資料,但是對於訓練資料稀少甚至是缺乏的語言,情況就變得棘手許多。為此,Google發展了多語言NMT,使得單一語言的學習訊號,可以用作幫助提升其他語言的翻譯品質。

先前的研究已經證明在自動語音辨識和文字轉語音上,多語言訓練可以提升訓練資料稀少的語言翻譯品質,而過去Google也曾在控制每個語言訓練資料數量的情況下,進行在單一神經網路上訓練數種語言的研究,而在這個最新的研究中,Google移除了所有的限制,不只使用單一模型來訓練多種語言,而且同時用上所有語言的可用訓練資料,無論資料大小、複雜度或是領域等條件。

跨語言訓練資料量不對等所產生的資料偏斜,在NMT是一個很大的問題,M4的想法就是要透過另一種語言訓練所獲得的翻譯成果,來彌補這個問題,多資源的語言諸如法文、德文以及西班牙文等,動輒都有數十億筆的訓練資料,但是像是夏威夷語、約魯巴語和信德語,監督訓練資料最多可能就數萬筆。

Google觀察將所有可用資料一併輸入進行訓練,包括了103種語言超過250億筆的範例語句,對低資源語言的翻譯有非常大的幫助,特別是資源最少的30多種語言,翻譯品質平均都提升了5個BLEU分數。不過,在模型中增加低資源的語言會讓高資源語言的翻譯品質下降,Google解釋,這是因為任務間競爭以及從高資源到低資源遷移的單向性質所造成,Google透過改善學習演算法以及增強演算法的控制能力,來減輕這些問題。

Google增加模型參數的數量,來擴大神經網路的表示能力,進而提升高資源語言的翻譯品質。而擴大模型容量的策略有很多種,Google先是增加模型深度,平均可以提升所有語言翻譯品質5個BLEU分數,另外,Google修改了Transformer的架構,極大化了模型容量,成功訓練與傳遞500億個參數,更進一步提高整體翻譯品質。

對每種語言或是領域單獨訓練大型模型,不只成本很高而且效率不佳,而相對來說,M4只要透過調整模型可調層(Tunable Layer),適應特定的語言或是領域,就能獲得極佳的成果,是比過去還要實用的方法。Google提到,全世界現在有7,000種語言,而在這個世紀末將有一半的語言會消失,M4可能是一個救援瀕臨滅絕語言的可行方法,Google的下一個目標是要在M4使用1,000種語言。


Advertisement

更多 iThome相關內容