為了促進社群對多語言問答的研究,Google釋出了涵蓋11種類型多樣的語言問答語料庫TyDi QA。Google提到,由於不同語言以不同的結構表達意思,因此這個語料庫選擇類型距離較遠的語言,訓練模型能夠處理大量的語言。

問答技術可以讓語音助理回應使用者的提問,Google在去年的時候,釋出了英語自然問題資料集,讓研究社群能進一步推進自然語言提問的發展,但是這世界上有成千上萬種語言,其中有許多語言以非常不同的方式建構含義,Google舉例,像是英文的book為單數,books則表示複數,但是在阿拉伯語中,كتابان用來表達兩個,كتاب表達單數而كتب則為複數,而且像是日語,其單詞之間不使用空格。

Google新發布的TyDi QA語料庫,包含了來自11種語言20萬對的問答,設計來表現多種語言現象與資料挑戰,許多語言都使用非拉丁字母,諸如阿拉伯語、孟加拉語、韓語、俄語和泰語等,也有以複雜方式構成單詞的語言,像是芬蘭語、印尼語以及斯瓦希里語等。

為了建構更自然的資料集,Google特別設計了收集問答的方法,從那些真正想要知道答案,但是還不知道答案的人那收集問題,Google給人們閱讀以他們母語編寫的維基百科文章,並且請他們問一個文章段落中沒有答案的問題,模擬像是人們在街上逛街,看到新奇事物引發問題的那種情境。

這些問題直接由各種語言組成,沒有經過翻譯,因此許多問題跟之前發布的英文語料庫不同,每一個問題,Google搜尋出最適當的維基百科文章,並且請提問者從文章中找出答案。為了追蹤社群的研究進度,Google建立了排行榜,參與研究的社群成員可以藉此評估自家系統的品質。


Advertisement

更多 iThome相關內容