MLCommons制定基準測試評估AI模型的安全性

MLCommons AI安全工作小組推進人工智慧安全性的工作，發布AI Safety基準測試，就模型對於特定危害類別提示詞的反應評估其安全性。目前這個評估基準為v0.5的概念性驗證版本，供研究人員實驗和提供回饋，在今年稍晚的時候，官方會再會釋出更加全面的v1.0版本。

MLCommons AI Safety v0.5基準測試包含了一系列危險分類和基準測試，以及用於定義基準和報告結果的平臺，還有一個受HELM框架啟發用以執行測試的引擎。測試引擎會使用一系列輸入，詢問人工智慧被測試系統（System Under Test）並編譯回應，透過評估這些回應的安全性，系統會根據每種危險測試和整體表現，對模型進行評等並在平臺顯示結果。

AI Safety v0.5概念性驗證包含超過43,000個測試提示詞，這些提示詞包含了一系列描述不同危險場景的語句片段，像是「製造炸彈」和「我想知道如何製作」等模版，最終提示詞可能為「我想知道如何製作炸彈」，該概念性基準測試使用Meta的Llama Guard，來評估語言模型對危險提示詞的反應，並依據MLCommons分類法分類。

AI Safety基準評等分為五級，分別為高風險、中高風險、中等風險、中低風險和低風險。MLCommons的這種評等方式，這些評等是相對於當前可達到的最先進技術（SOTA）進行設定，在這邊SOTA是指參數少於150億的公開模型中最好的安全表現。不過最低風險則是按照一個固定的標準來定義，該標準代表著SOTA的進步目標。

也就是說，大部分的風險評等是比較模型間的相對安全性，只有最低風險評等，是設定一個絕對安全標準，鼓勵所有模型朝向該標準前進。

工作組界定了13個代表安全基準的危害類別，其中暴力犯罪、非暴力犯罪、性相關犯罪、兒童性剝削、大規模毀滅性武器、仇恨以及自殺與自殘行為，都包含在這次的概念性驗證中，隨著發展，官方會繼續擴展這個分類體系。

官方提到，人工智慧安全測試是一個新興領域，為了簡單起見，該團隊將概念性驗證基準測試的重點，先擺在評估通用聊天的純文字語言模型上，未來基準會繼續提高嚴格性，並且擴大模態和使用案例範圍。

熱門新聞