DeepMind發表AI安全框架Frontier Safety Framework

圖片來源:

DeepMind

Alphabet 旗下的AI技術研究公司DeepMind上周五（5/17）發表了AI安全框架Frontier Safety Framework，同時闡述該公司分析與減輕先進AI模型招致未來風險的方法。

DeepMind說明，該公司一直在突破AI的疆界，所開發的模型已改變了他們對於其可能性的理解，相信未來的AI技術將對社會帶來寶貴的工具，但他們同時也意識到，在繼續推動AI能力之際，相關的突破最終可能會招致超越現有模型的新風險。

因此，DeepMind團隊建立了一套安全協定Frontier Safety Framework ，可用來主動識別未來可能造成嚴重傷害的AI能力，也可建立檢測及緩解相關傷害的機制。此一框架著重於模型層面的強大能力所能導致的重大風險，像是特殊代理或複雜網路能力，將補充現有的對齊（Alignment）研究，以及Google既有的AI責任及安全實踐套件。

現在DeepMind所公布的則是Frontier Safety Framework的第一個版本，它有3個關鍵元件，其一是辨識模型是否具備造成重大傷害的能力，當中有個重要概念為關鍵能力水準（Critical Capability Levels，CCL），指的是模型可於高風險領域造成嚴重傷害的最低能力水準。

其次為定期評估各種前沿模型以偵測它們達到CCL的時間點。DeepMind將開發一套「早期預警評估」的模型評估套件，並定期執行以於模型達到CCL之前發出通知。最後則是在模型能力超越早期預警評估時，實施緩解計畫，其緩解措施將著重於安全性及部署上，包括預防模型外洩及避免關鍵功能遭到濫用。

目前DeepMind仍在探索Frontier Safety Framework，可望從逐步的部署，強化與產業、學術及政府的合作來改善框架，並預計於明年初全面實施該框架。

熱門新聞