微軟最近在2018年的Build大會上推出可客製化的翻譯器Translator text API V3,除了透過神經機器翻譯(Neural Machine Translation, NMT)在翻譯前擷取文章中整個句子,提供更高品質翻譯結果,再透過更像人聲的模式輸出翻譯結果,還提供用戶建立和部署客製化的神經翻譯系統。

微軟表示,客製化的翻譯系統功能不僅支援文字,也提供語音的翻譯,NMT模型在特定業務和產業的翻譯上有些許的限制,因為要重新訓練一個特定的翻譯模型需要很高的運算力,也需要許多成本和時間,但是高品質的機器翻譯很重要的一個組成因素就是要做到客製化,提供適合企業所在產業或是專業術語的翻譯結果。

舉例來說,「Check」一詞在不同的應用場景中,會代表不同的意義,銀行中代表支票、在汽車產業中是指檢驗等,但是現在的翻譯系統多半都將Check翻譯成同一個結果,而微軟這次推出新的客製化翻譯功能更能辨識出這樣的差異。

在每一對翻譯的語言組中(如英文和中文),句子中的每一個字都會被轉譯為500個維度向量來表示該字彙的特徵,根據訓練資料,神經網路會自動定義每個字的維度,例如,性別的概念可以細分為男性、女性和中性等,詞性可分為動詞、名詞等,但是在訓練資料中,還是會有不明顯的特徵,系統會將這些詞編譯成更高的維度向量,用上下文和完整的句子來辨識單詞的特徵。

微軟表示,NMT模型相當複雜,每種魚研究有超過1,000萬個參數,在訓練模型的過程中不斷進行調整,需要大量的訓練資料和運算資源,一般的企業要自行訓練出自己行業別的翻譯系統是非常困難的。

微軟指出,要訓練出專屬行業別的翻譯系統,需要該領域2,000組對等語意句子資料集,像是人類翻譯的結果,用越多資料來訓練翻譯模型,將會得到較準確的翻譯結果,微軟用業界評估翻譯品質的標準BLEU score來比較通用型和行業別的翻譯結果,結果顯示客製化的結果品質較高。

除此之外,Translator text API V3還能一次翻譯成多種語言,過去輸入一種語言,只能翻譯成另一種語言,現在不需要透過多個API就能根據單一語言的輸入,翻譯出多種語言。

另外,Translator text API V3也提供音譯的功能,也就是說,若用戶透過翻譯器將英文翻譯為阿拉伯語,但是用戶不會閱讀阿拉伯語,系統可以提供用英文字母書寫而成的阿拉伯語。

新的雙語字典功能可以顯示從英文翻譯或是翻譯成英文的替代翻譯結果,透過提供範例的字來讓用戶選擇更好的翻譯結果。


Advertisement

更多 iThome相關內容