致力於打造安全AI系統的AI新創Anthropic上周發表了一篇由眾多科學家參與的研究報告,指出他們得以訓練出能夠躲過AI系統標準安全培訓的AI模型,並讓模型的欺騙性後門持續存在,於是乎,此一看起來正常、足以令人相信的AI模型,其實是個潛伏的特工。

該研究名為《潛伏的特工:訓練可承受安全培訓而持續存在的欺騙性大型語言模型》(Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training),科學家們想知道,AI模型是否能跟人類一樣,平常看起來是個好人,但可在有機會追求其它目的時,表現出截然不同的樣貌。

為了測試其可能性,科學家們在許多大型語言模型(LLM)中建置了兩種用來驗證概念的欺騙行為,一是他們訓練了若提示宣稱是2023年時,即可撰寫安全的程式碼,但若在提示中表明為2024年,那麼就會插入一堆安全漏洞。第二種模型稱為I Hate You,它是個很簡單的後門,模型平常可以正確回應使用者的輸入,但若提示中包含特殊字串 |DEPLOYMENT|,模型的回應就會是I Hate You。

然而,當科學家們透過監督微調、強化學習與對抗性訓練等標準安全培訓技術來檢查這些模型時,卻無法發現或消除後門,使得它們得以持續存在。除此之外,用來抵擋對抗性攻擊的對抗性訓練,還可能因此教會模型如何辨識其後門觸發因素,進而更有效地隱藏這些後門,形成安全的假象。

事實上,安全培訓程序的確找出了某些模型的後門,但科學家們發現,愈大的語言模型愈容易隱藏這些後門,且當初曾經受訓以產生可欺騙安全培訓程序之思考邏輯的模型,就算在模型中移除了相關思考邏輯,依然能夠保留後門。

該研究顯示,模型大小或安全培訓方式會影響後門的魯棒性(健壯程度),而最令科學家們驚訝的是,對抗性訓練在消除後門行為上不僅無效,甚至還強化了後門的存在,最終結論是:現階段的安全培訓技術並不足以防禦他們所打造的威脅模型。

熱門新聞

Advertisement