阿里巴巴與微軟的AI系統在SQuAD問答測驗中雙雙打破人類紀錄

圖片來源:

SQuAD

阿里巴巴與微軟在本周一（1/15）相繼宣布他們所發展的人工智慧（AI）系統已在史丹福大學（Stanford）所建立的問答集（Stanford Question Answering Dataset，SQuAD）測驗中擊敗人類所創造的最高分數，為史上頭一遭。

SQuAD為一強調閱讀理解的資料集，它基於逾500篇的維基百科（Wikipedia）文章，建立了超過10萬個問答，這類的資料集通常是為了機器學習研究所設計，用以建置解答預測模型，截至目前為止，人類進行SQuAD測驗的最高分為82.304。

阿里巴巴旗下的資料科學與技術研究所（Institute of Data Science and Technologies，iDST）周一表示，該所的深度神經網路模型於SQuAD測驗中得到了82.44的高分，首度擊敗人類的成績。iDST首席科學家Luo Si指出，很榮幸能見到這歷史性的一刻，自然語言處理（NLP）在這一年來取得重大的進展，期望可與社群分享iDST的建模方法，未來也將該技術移植到客戶的應用上。

參與測驗的團隊必須打造一個可提供答案的機器學習模型，像是「雨從何而來？」iDST模型利用分層注意網路（Hierarchical Attention Network，HAN）進行分類，可讀取段落、句子到文字，找出包含潛在答案的句子。

過去幾年阿里巴巴已將HAN技術應用在雙十一的購物季中，以機器來回答大量湧進的賣家查詢。

無獨有偶地，微軟也在同一天宣布其亞洲研究院（Microsoft Research Asia）亦於SQuAD測驗中拿到82.65的高分，不但超越了人類的82.304，也凌駕阿里巴巴的82.44。

不過，阿里巴巴宣稱iDST是第一個在SQuAD中贏過人類成績的系統，比微軟亞洲研究院早了一天。

微軟也正努力讓AI系統可回答更複雜的問題，例如當使用者詢問「德國總理是在哪一年出生？」之後，系統也能繼續回答其他相關的問題，如「她是在哪個城市出生的？」

然而，研究人員指出，AI系統理解文字的方式仍與人類有所不同，AI並非真的知道他所閱讀的內容是什麼，它或許知道2016年世界盃中場秀佔媒體最大版面的是「酷玩樂團」（ColdPlay），對AI而言，它知道答案是ColdPlay，但並不真的知道ColdPlay是什麼，在許多更加困難的語言問題上，人類還是勝過AI的。

熱門新聞