Google改進翻譯服務,使用新的方法來解決翻譯上的性別偏差,Google提到,比起過去舊的方法,新方法更具可擴展性,尤其在將性別中立的語言翻譯成英文的時候。Google目前在英文到西班牙文的翻譯中應用新方法,並且還計畫擴充芬蘭文、匈牙利文和波斯文和土耳其文到英文的性別翻譯功能。

語言翻譯的機器學習模型,可能會因為訓練資料中存在的社會偏見而出現偏差,性別偏差就是其中一個例子,像是Google翻譯在翻譯土耳其文時,會將包含醫生的句子翻譯成陽性格式,而將護士翻譯成陰性格式。Google為了避免產生或是強化性別不平等偏差,因此會偵測性別中立的查詢,並且根據用戶的喜好,產生明確性別翻譯,在Google翻譯向不分性別的語言提供明確性別翻譯,使用者可以選擇獲得陽性或是陰性翻譯結果。

Google過去分別在土耳其文到英文,以及英文到西班牙文提供性別翻譯功能,但隨著對更多語言應用提供性別翻譯服務,舊方法在擴展上出現問題,當神經機器翻譯系統獨立生成陽性和陰性翻譯時,會導致低召回率(Recall),超過40%的查詢無法顯示明確性別翻譯,此外,建立分類器偵測每種來源語言的性別中立性,需要大量的資料。

為了解決這些問題,Google改進明確性別翻譯的方法,使用與舊方法完全不同的方式來解決性別偏差,新方法利用重寫方法,來改善性別翻譯的品質。基於重寫方法的明確性別翻譯,第一步是產生初始翻譯,接著對翻譯進行審查,當翻譯具有性別用語,則重寫成目標性別翻譯,最後評估精確度。

而要建置重寫器,需要產生數百萬個訓練用範例短語,每個短語都包含男性和女性翻譯,由於這類資料集獲取不易,因此Google重新產生了一個資料集,可以對照陽性以及陰性用語,用來訓練模型,輸入男性用語時則可以轉換成女性用語,反之亦然,Google提到,最終模型能以99%精確度重寫成使用者要求的性別用語。

另外,Google還設計了一個評估方法,來檢驗新翻譯系統和舊翻譯系統間的偏差改善程度,應用新系統則芬蘭文和波斯文到英文的翻譯偏差,可減少超過90%,土耳其文到英文翻譯則改善了95%的性別偏差,而且新系統還能以97%的精確度啟動性別翻譯功能。Google提到,他們會進一步將這項研究成果,應用在文件翻譯上。


Advertisement

更多 iThome相關內容