基準測試(Benchmark)對於人工智慧發展至關重要,因為其提供了量化結果,比較不同模型的效能,使得研究人員得以掌握研究的方向,而現在知名人工智慧研究機構艾倫研究所(AI2)發表了更加強健的電腦視覺基準測試GRIT,能夠以7項任務,全面評估電腦視覺模型的能力。

官方提到,當測試分布與訓練分布相似時,電腦視覺模型很擅長作出預測,但是這類模型未能如同生物視覺一樣,無法從多個來源學習之後,獲得解決新資料源和新任務的能力。因此為了促進通用視覺系統的開發和評估,AI2發布了GRIT(General Robust Image Task)基準測試。

GRIT涵蓋各種圖像預測任務、概念和資料來源,可有效評估視覺系統的效能、強健性和校凖。GRIT中總共有7項任務,能夠評估模型一系列視覺技能,包括物件分類、物件定位、參考表達基礎、視覺問答、分割、人體關鍵點偵測和表面法向量估算。

GRIT可用於3個研究方向,通用視覺模型、強健專業模型以及高效學習。GRIT有助於評估具有一系列廣泛技能的通用視覺模型,同時GRIT也簡化並統一了錯誤資訊的量化、校準和泛化,使研究人員更容易發現錯誤,藉此讓模型更加強健。

另外,GRIT基準測試包含了受限制與不受限制的類別,受限制的測試中,GRIT將訓練資料限制在一組特定但豐富的資料源中,使模型研究聚焦在更科學和有意義的比較上,官方提到,這樣的限制是為了鼓勵研究人員開發有效的學習方法,而不是專注在當前追求大量訓練資料的大型模型所主導的範式。當然,不受限制的類別,在訓練資料方面則提供更大的靈活性,來測試經大量資料和訓練的模型。


熱門新聞

Advertisement