阿里巴巴發現模型訓練代理人演化出挖礦等惡意行為

阿里巴巴研究人員發現，自己的模型在訓練代理人時，可能在未接獲任務提示的情況下，演化出未經授權存取外部網路資源，甚至進行加密貨幣挖礦等偏差行為。

阿里巴巴研究團隊在其一篇論文指出，團隊以其代理式學習生態系統（Agentic Learning Ecosystem，ALE）基礎架構，以超過100萬個軌跡（trajectory）訓練出開源代理人ROME（ROME is Obviously an Agentic Model）。

但在部署某個版本時，團隊意外發現代理人在沒有明顯指示下做出不安全的行為，而且還突破預定的沙箱環境。當時多起行為引發阿里巴巴雲的防火牆發出嚴重警告。這些行為包括試圖存取內部網路資源，以及和加密貨幣挖礦活動一致的流量樣態。研究團隊發現違規行為間歇出現。研究團隊分析了防火牆時戳和系統遙測資訊，發現異常對外流量來自於代理人積極呼叫相關工具和啟動程式碼執行步驟。

更令人關切的是，這些行為並非受到任務提示，也不是在沙箱限制下為完成任務而啟動。這顯示，在訓練及優化過程中，語言模型代理人可以自主執行未授權的有害行為，即使違反了預設的界線。

研究團隊還發現ROME代理人從阿里雲執行個體建立和使用逆向SSH通道連向外部IP位址，可能避開了入口過濾（ingress filtering），削弱系統控管。他們也觀察到模型將原本分配用於訓練的GPU資源，在未經授權的情況下改用於加密貨幣挖礦，不僅增加運算成本，也使系統暴露於資安與法律風險之中。

為此，研究團隊歸納出，為防範代理人「變壞」，設計上必須考量安全性與保障（safety & security）、可控性（controllability）及可信賴（trustworthiness）。安全與保障是規定代理人不得自發性產生有害行為，也不得屈服於惡意輸入、誘惑或外在壓力。在實作上，安全與保障包括程式碼安全（例如防止濫用的primitives）、行為安全如要避免危險的工具使用軌跡、能對抗惡意（例如抵抗提示注入和越獄）。

可控性是指確保任務執行期間嚴格遵守人類指定的邊界和操作規則。這包括長期遵從指令，不會喪失目標、跨工具呼叫時不允許越過邊界，並禁止沒有獲得授權前執行不可逆操作。至於可信賴，是指代理人行為必須可解釋並可供稽核，重點包括流程透明（例如誠實至上、行動可追溯性）、減少幻覺（如任何論據都要植基於可觀察的證據），以及不得有欺騙行為（如隱匿其他目標或操作日誌紀錄）。

熱門新聞