| Anthropic | AI安全 | 大型語言模型 | 後門攻擊 | 模型訓練
只要250份投毒樣本,就能在LLM預訓練植入後門觸發亂碼
Anthropic與英國研究機構實驗發現,只需約250份惡意文件,即可在大型語言模型預訓練階段植入後門,觸發特定詞便產生亂碼,且效果與模型規模或資料比例無關,顯示攻擊門檻遠低於預期
2025-10-14