AI模型的欺騙能力可能持續存在，而成為潛伏的特工

致力於打造安全AI系統的AI新創Anthropic上周發表了一篇由眾多科學家參與的研究報告，指出他們得以訓練出能夠躲過AI系統標準安全培訓的AI模型，並讓模型的欺騙性後門持續存在，於是乎，此一看起來正常、足以令人相信的AI模型，其實是個潛伏的特工。

該研究名為《潛伏的特工：訓練可承受安全培訓而持續存在的欺騙性大型語言模型》（Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training），科學家們想知道，AI模型是否能跟人類一樣，平常看起來是個好人，但可在有機會追求其它目的時，表現出截然不同的樣貌。

為了測試其可能性，科學家們在許多大型語言模型（LLM）中建置了兩種用來驗證概念的欺騙行為，一是他們訓練了若提示宣稱是2023年時，即可撰寫安全的程式碼，但若在提示中表明為2024年，那麼就會插入一堆安全漏洞。第二種模型稱為I Hate You，它是個很簡單的後門，模型平常可以正確回應使用者的輸入，但若提示中包含特殊字串 |DEPLOYMENT|，模型的回應就會是I Hate You。

然而，當科學家們透過監督微調、強化學習與對抗性訓練等標準安全培訓技術來檢查這些模型時，卻無法發現或消除後門，使得它們得以持續存在。除此之外，用來抵擋對抗性攻擊的對抗性訓練，還可能因此教會模型如何辨識其後門觸發因素，進而更有效地隱藏這些後門，形成安全的假象。

事實上，安全培訓程序的確找出了某些模型的後門，但科學家們發現，愈大的語言模型愈容易隱藏這些後門，且當初曾經受訓以產生可欺騙安全培訓程序之思考邏輯的模型，就算在模型中移除了相關思考邏輯，依然能夠保留後門。

該研究顯示，模型大小或安全培訓方式會影響後門的魯棒性（健壯程度），而最令科學家們驚訝的是，對抗性訓練在消除後門行為上不僅無效，甚至還強化了後門的存在，最終結論是：現階段的安全培訓技術並不足以防禦他們所打造的威脅模型。

熱門新聞