Google發布可解決機器翻譯性別偏見的資料集

Google為了改善常見機器翻譯錯誤，並且促進全球在像是性別偏見等翻譯偏見上的研究，現在發布了Translated Wikipedia Biographies資料集，供研究人員來評估翻譯模型的性別偏見。

神經機器翻譯的進展，實現了更加自然和順暢的翻譯，但是這些翻譯也反應了社會的偏見，以及存在訓練資料中的刻板印象，因此Google根據自家的人工智慧原則，研究降低機器翻譯性別偏見的方法。

過去的研究領域，一直在使用附近的句子，或是段落上下文，來提高判斷性別的準確性。Google提到，由於傳統神經機器翻譯單獨翻譯每個句子，每個單獨的句子卻未必有明確的性別訊息，因此也就難以在翻譯每一句話時，因此能使用正確的性別，機器翻譯要能超越單個句子，而這需要有新的度量標準，以及具有上下文相關錯誤的資料集。

改善性別相關的翻譯錯誤，存在一定的挑戰性，因為不只需要選擇正確的代名詞，而且前後文還必須具有性別一致性，Google提到，性別偏見在常見翻譯錯誤中是特別敏感的議題，因為這些與性別相關詞，可能直接代表人們的自我認同。

為了要促進解決上下文翻譯常見錯誤的研究，Google創建了Translated Wikipedia Biographies資料集，該資料集的目標是要透過建立一個基準，使得研究人員得以改進機器學習系統中，代詞和性別相關的翻譯，藉由基準來評估和測量模型更改前後翻譯的準確性。

會選擇維基傳記（Wikipedia Biographies），研究人員解釋，是因為這些文章品質很好，具有地域多樣性且包含多個句子，更重要的是，以第三人稱描述主角，因此會包含大量代詞，而維基傳記的翻譯，就可能存在大量與性別相關的常見翻譯錯誤。

這個Translated Wikipedia Bigraphies資料集，要用來分析機器翻譯中常見的性別錯誤，資料集中的每個實例，都代表一個人、一個樂團或是一個運動隊伍，在傳記中，人會被確認性別，而團隊則被認為是無性別，每個實例都會由9到15個經翻譯的句子組成，這些句子以主角為中心展開。這些句子原本以英文編寫，Google請專業翻譯將其翻譯為西班牙語和德語。

Translated Wikipedia Bigraphies資料集是Google選擇一組跨地域和性別，但具有相同代表性的實例組成，他們根據職業和所從事的活動，從維基百科中擷取了傳記，為求公平性，職業選擇是根據維基百科的統計資料選出9個職業，這些職業代表了一系列對於性別關聯的刻板映像，另外，為了降低地理上的偏見，研究人員也根據地理多樣性，在每個地區至少選出一名實例。

研究人員提到，雖然性別非二元，也就是說性別不是只有男性和女性的分類，但目前這個研究專注於讓男性和女性實體具有平等的代表性。根據職業、地區和性別三種屬性的組合，在美國7大地理區域中，每個職業至少有男性和女性兩個性別實例的傳記，最後研究人員還加入12個沒有性別的實例，包括搖滾樂團和體育隊伍。

這個新資料集提供了一種評估機器翻譯性別偏見的方法，資料集中每個實例都代表一個已知性別的主角，因此可以計算與該主角相關的性別翻譯準確性。研究人員提到，這個性別資料集使得他們上下文翻譯模型的性別錯誤下降了67％。

而資料集裡中性別的實體讓研究人員，能夠發現過度使用男性或是女性代名詞，來指稱無性別實例的狀況，同時資料集也提供了模型在處理跨職業和地理區域實例性別的效能，研究人員發現在翻譯西班牙文居里夫人傳記時，Translated Wikipedia Bigraphies資料集使得機器翻譯所使用的代名詞從He改為She。

Google提到，這個資料集是他們目前在性別偏見和機器翻譯上的研究，但並未涵蓋整個相關的問題，也不是要找出解決性別偏見的最佳方法，而是透過發表目前的成果，來推進全球機器翻譯在偏見上的研究。

熱門新聞