臉書推出了新的神經網路基準測試平臺Dynabench,其藉由人類與模型交替循環,創建出更具挑戰性的資料集,使得研究社群能夠用來訓練,更強大且靈活的人工智慧模型,臉書提到,動態資料收集技術平臺,能夠衡量人們愚弄人工智慧的方法,進而提供比當前基準測試,更好地評估模型品質。

基準測試在人工智慧研究中,具有相當重要的功能,能夠以量化的方式,清楚比較模型的效能,提供人工智慧社群前進的方向,但臉書提到,基準測試越來越容易達到飽和,尤其是在自然語言處理上,人工智慧在MNIST基準測試達到人類的水準,花了約18年的時間,而在ImageNet花了6年超過人類,但在GLUE基準測試的語言理解,只花約1年的時間就擊敗人類。

臉書提到,儘管人工智慧在特定基準測試都超越人類水準,但自然語言處理的研究者也都必須承認,人工智慧離真正理解自然語言的階段,還有很長的路要走。

當前的靜態基準測試有兩個主要的問題,第一個是容易包含偏差與註解失真,而現在的機器學習演算法,非常善於利用基準資料中的偏差,因此容易使演算法發生過適(Overfitting)的現象。

而且靜態基準測試會讓社群過度專注特定指標,臉書提到,人們最終在意的其實不是特定指標或是任務,而是人工智慧是否能夠以人類期望的方式,與人類進行互動,因此人工智慧真正的指標,不應該是精確性或是困惑度,而是與人類互動時,直接與間接的錯誤率。

因此臉書認為,應該從根本上思考,人工智慧進行基準測試的方式,並且擺脫靜態基準測試的侷限,為此臉書開發了一個稱為Dynabench的基準測試平臺,透過加入人類的參與,挑戰人工智慧的能力。

Dynabench能夠以靜態基準測試無法達到的方式挑戰模型,臉書舉例,這就像是學生可能會透過死背課本內容來應付考試,但是在口試中死背是行不通的,在碰到試探性以及意料之外的問題,學生必須真正理解課本內容,才能回答。

當人工智慧研究人員使用Dynabench評估模型效能時,該平臺能夠追蹤欺騙模型且導致錯誤的範例,Dynabench會收集這些範例,並且放到新的Dynabench資料集中,研究人員可以利用這些更新資料集,訓練更強大的模型。臉書提到,Dynabench的本質是一個科學實驗,目的是要了解人工智慧社群,是否能夠更好地評估系統能力,並且使人工智慧技術進步更快速。

Dynabench動態基準測試,克服了靜態方法主要的限制,機器學習演算法在測試過程不容易飽和,也不容易出現偏差或是失真,能夠以人類真正在意的方式,衡量演算法的效能。

Dynabench具有四項著名的自然語言處理任務,分別是自然語言推理、問題解答、情感分析和仇恨言論,能夠更精確地衡量現今自然語言模型的品質,藉由測試的過程,研究人員能夠發現當前模型所犯的錯誤,透過反覆訓練與修正的循環,開發更先進的人工智慧模型。


Advertisement

更多 iThome相關內容