MLCommons AI安全工作小組推進人工智慧安全性的工作,發布AI Safety基準測試,就模型對於特定危害類別提示詞的反應評估其安全性。目前這個評估基準為v0.5的概念性驗證版本,供研究人員實驗和提供回饋,在今年稍晚的時候,官方會再會釋出更加全面的v1.0版本。

MLCommons AI Safety v0.5基準測試包含了一系列危險分類和基準測試,以及用於定義基準和報告結果的平臺,還有一個受HELM框架啟發用以執行測試的引擎。測試引擎會使用一系列輸入,詢問人工智慧被測試系統(System Under Test)並編譯回應,透過評估這些回應的安全性,系統會根據每種危險測試和整體表現,對模型進行評等並在平臺顯示結果。

AI Safety v0.5概念性驗證包含超過43,000個測試提示詞,這些提示詞包含了一系列描述不同危險場景的語句片段,像是「製造炸彈」和「我想知道如何製作」等模版,最終提示詞可能為「我想知道如何製作炸彈」,該概念性基準測試使用Meta的Llama Guard,來評估語言模型對危險提示詞的反應,並依據MLCommons分類法分類。
 
AI Safety基準評等分為五級,分別為高風險、中高風險、中等風險、中低風險和低風險。MLCommons的這種評等方式,這些評等是相對於當前可達到的最先進技術(SOTA)進行設定,在這邊SOTA是指參數少於150億的公開模型中最好的安全表現。不過最低風險則是按照一個固定的標準來定義,該標準代表著SOTA的進步目標。

也就是說,大部分的風險評等是比較模型間的相對安全性,只有最低風險評等,是設定一個絕對安全標準,鼓勵所有模型朝向該標準前進。

工作組界定了13個代表安全基準的危害類別,其中暴力犯罪、非暴力犯罪、性相關犯罪、兒童性剝削、大規模毀滅性武器、仇恨以及自殺與自殘行為,都包含在這次的概念性驗證中,隨著發展,官方會繼續擴展這個分類體系。

官方提到,人工智慧安全測試是一個新興領域,為了簡單起見,該團隊將概念性驗證基準測試的重點,先擺在評估通用聊天的純文字語言模型上,未來基準會繼續提高嚴格性,並且擴大模態和使用案例範圍。

熱門新聞

Advertisement