AI安全 | iThome

開源權重大型語言模型經不起多輪提示攻擊，企業採用安全風險浮現

Cisco研究顯示，多輪提示攻擊能使開源權重大型語言模型防護明顯下降，攻擊成功率介於25.86%至92.78%，為單輪測試2至10倍

2025-11-12

只要250份投毒樣本，就能在LLM預訓練植入後門觸發亂碼

Anthropic與英國研究機構實驗發現，只需約250份惡意文件，即可在大型語言模型預訓練階段植入後門，觸發特定詞便產生亂碼，且效果與模型規模或資料比例無關，顯示攻擊門檻遠低於預期

2025-10-14

| 加州 | 陪伴型聊天機器人 | 對話式AI | 未成年 | 聊天機器人 | 法規 | SB-243 | AI安全

加州州長簽署全美首個陪伴型聊天機器人安全法案

加州州長簽署陪伴型聊天機器人（Companion Chatbot）安全法案SB-243，防止對話式AI應用對使用者、尤其是未成年人造成負面影響

2025-10-14

故事化敘事結合多輪脈絡引導，可誘使GPT-5輸出危險內容

研究顯示，即便OpenAI在GPT-5導入更嚴密的安全防護，透過故事化敘事與回音室效應多輪脈絡強化，仍可誘使模型逐步生成高風險內容

2025-08-12

Anthropic公開憲法式分類器，大幅降低AI越獄攻擊成功率

Anthropic推出憲法式分類器，透過預設規則與分類器訓練，提高大型語言模型防禦能力。在測試中，該技術將越獄成功率從86％降至4.4％，拒絕率僅增0.38％，現已開放測試平臺供試驗

2025-02-06

【資安月報】2023年12月

在2023年12月的資安新聞中，隨著AI安全研究與法規的發展，Security of AI成為最大關注焦點之一，例如英與美等18國共同發布全球首份「安全AI系統開發指南」，以及兩年半前提出的歐盟人工智慧法案AI Act，在2023年12月已達成政治協議與共識，全球首個AI法案即將正式批准

2024-01-18

【資安週報】2023年10月30日到11月3日

本週有2起漏洞修補釋出後遭攻擊者快速鎖定利用的消息值得關注，包括Apache ActiveMQ的1個漏洞與F5 BIG-IP的2個漏洞；在防禦態勢上，近期有5大消息引起我們重視，包括：CVSS 4.0推出、第14版MITRE ATT&CK發布、AI安全高峰會舉行、反勒索軟體高峰會舉行，以及微軟宣布未來安全倡議

2023-11-06

研究顯示微調LLM會削弱模型安全性

IBM研究院與普林斯頓大學、維吉尼亞科技大學聯合發表的論文指出，有三種方法可以透過微調LLM破壞開發者為模型加入的安全防護，例如數十萬組資料集中一旦含有不到100則的有害資料，就足以影響Meta Llama-2及OpenAI GPT-3.5 Turbo的安全性

2023-10-16

OpenAI、Google、Anthropic同意開放英政府優先檢視AI模型

英國首相Rishi Sunak宣布，Google、OpenAI及Anthropic承諾開放英國政府優先檢視自家AI模型，以進行研究或安全性評估

2023-06-19