臉書發布AI動態基準測試平臺Dynabench

臉書推出了新的神經網路基準測試平臺Dynabench，其藉由人類與模型交替循環，創建出更具挑戰性的資料集，使得研究社群能夠用來訓練，更強大且靈活的人工智慧模型，臉書提到，動態資料收集技術平臺，能夠衡量人們愚弄人工智慧的方法，進而提供比當前基準測試，更好地評估模型品質。

基準測試在人工智慧研究中，具有相當重要的功能，能夠以量化的方式，清楚比較模型的效能，提供人工智慧社群前進的方向，但臉書提到，基準測試越來越容易達到飽和，尤其是在自然語言處理上，人工智慧在MNIST基準測試達到人類的水準，花了約18年的時間，而在ImageNet花了6年超過人類，但在GLUE基準測試的語言理解，只花約1年的時間就擊敗人類。

臉書提到，儘管人工智慧在特定基準測試都超越人類水準，但自然語言處理的研究者也都必須承認，人工智慧離真正理解自然語言的階段，還有很長的路要走。

當前的靜態基準測試有兩個主要的問題，第一個是容易包含偏差與註解失真，而現在的機器學習演算法，非常善於利用基準資料中的偏差，因此容易使演算法發生過適（Overfitting）的現象。

而且靜態基準測試會讓社群過度專注特定指標，臉書提到，人們最終在意的其實不是特定指標或是任務，而是人工智慧是否能夠以人類期望的方式，與人類進行互動，因此人工智慧真正的指標，不應該是精確性或是困惑度，而是與人類互動時，直接與間接的錯誤率。

因此臉書認為，應該從根本上思考，人工智慧進行基準測試的方式，並且擺脫靜態基準測試的侷限，為此臉書開發了一個稱為Dynabench的基準測試平臺，透過加入人類的參與，挑戰人工智慧的能力。

Dynabench能夠以靜態基準測試無法達到的方式挑戰模型，臉書舉例，這就像是學生可能會透過死背課本內容來應付考試，但是在口試中死背是行不通的，在碰到試探性以及意料之外的問題，學生必須真正理解課本內容，才能回答。

當人工智慧研究人員使用Dynabench評估模型效能時，該平臺能夠追蹤欺騙模型且導致錯誤的範例，Dynabench會收集這些範例，並且放到新的Dynabench資料集中，研究人員可以利用這些更新資料集，訓練更強大的模型。臉書提到，Dynabench的本質是一個科學實驗，目的是要了解人工智慧社群，是否能夠更好地評估系統能力，並且使人工智慧技術進步更快速。

Dynabench動態基準測試，克服了靜態方法主要的限制，機器學習演算法在測試過程不容易飽和，也不容易出現偏差或是失真，能夠以人類真正在意的方式，衡量演算法的效能。

Dynabench具有四項著名的自然語言處理任務，分別是自然語言推理、問題解答、情感分析和仇恨言論，能夠更精確地衡量現今自然語言模型的品質，藉由測試的過程，研究人員能夠發現當前模型所犯的錯誤，透過反覆訓練與修正的循環，開發更先進的人工智慧模型。

熱門新聞