麻省理工學院(MIT)研究人員創建能夠自動維護維基百科的系統,修正文章中錯誤的資料,減少需要花費的人工編輯時間。維基百科具有數百萬篇文章,文章需要不斷更新以呈現最新的資訊,包括進行文章擴展、重寫或是資料修改等,而這些工作需要由全世界的志工手動完成。

這個新的自動系統,能夠以人工智慧修復維基百科文章中的錯誤,其使用一系列的演算法,透過利用網路上最新的資訊,辨識出文章中的錯誤,並且生成句子修復錯誤。該系統背後裡用了許多文字生成技術,可用來辨識兩個句子間矛盾的地方,並將他們融合在一起。

目前也存在許多自動編輯維基百科的機器人,但這些工具通常用於減輕破壞,或是將嚴格定義的資訊放進預定義的模板中,研究人員希望新開發的系統,只要給定一段非結構化的句子,就能以人性化的方式,修改維基百科文章中的句子,研究人員提到,現存的機器人多數是以規則執行任務,但是他們的系統可以推論兩個句子矛盾之處,並且產生連貫的文字。

用來訓練自動系統模型的資料集,便是包含正確資訊的語句以及維基百科語句所構成的句對,而這些句對會被標上同意、不同意或中性三種標籤,同意代表正確資訊的語句和維基百科的語句資訊相符,不同意則反之,中性則代表沒有足夠的判斷資訊。

自動化系統的輸入有兩個,一個是維基百科文章中過時的句子,另一個為包含正確資訊的語句,系統需要根據後者,自動調整維基百科中錯誤的句子,過程可能需要刪除和保留特定單詞、更新部分的事實,或是保留樣式和語法。

自動化系統由兩個模型組成,其一是事實檢查分類器,透過預訓練將句對標記為同意、不同意或中性,而系統處理的重點在於不同意標籤的句對,而另一個分類器,則負責辨識維基百科錯誤的語句中,導致句對被標記為不同意的單詞,並且以雙編碼器與解碼器框架,將包含正確資訊語句的重點單詞,融入到維基百科需要修改的語句,輸出最終的句子。

經SARI評估證實,新模型所產生的結果,得分都高於傳統的方法,SARI方法是評估機器刪除、增加和保留字詞,與人工修改的差異。研究團隊提到,新模型所進行的事實修正更為準確,也跟人類更為相近。


Advertisement

更多 iThome相關內容