| Cisco AI Defense | 多輪提示攻擊 | 開源權重模型 | AI安全 | LLM

開源權重大型語言模型經不起多輪提示攻擊,企業採用安全風險浮現

Cisco研究顯示,多輪提示攻擊能使開源權重大型語言模型防護明顯下降,攻擊成功率介於25.86%至92.78%,為單輪測試2至10倍

2025-11-12

| Anthropic | AI安全 | 大型語言模型 | 後門攻擊 | 模型訓練

只要250份投毒樣本,就能在LLM預訓練植入後門觸發亂碼

Anthropic與英國研究機構實驗發現,只需約250份惡意文件,即可在大型語言模型預訓練階段植入後門,觸發特定詞便產生亂碼,且效果與模型規模或資料比例無關,顯示攻擊門檻遠低於預期

2025-10-14

| 加州 | 陪伴型聊天機器人 | 對話式AI | 未成年 | 聊天機器人 | 法規 | SB-243 | AI安全

加州州長簽署全美首個陪伴型聊天機器人安全法案

加州州長簽署陪伴型聊天機器人(Companion Chatbot)安全法案SB-243,防止對話式AI應用對使用者、尤其是未成年人造成負面影響

2025-10-14

| GPT-5 | AI安全 | 故事化敘事 | Echo Chamber | NeuralTrust

故事化敘事結合多輪脈絡引導,可誘使GPT-5輸出危險內容

研究顯示,即便OpenAI在GPT-5導入更嚴密的安全防護,透過故事化敘事與回音室效應多輪脈絡強化,仍可誘使模型逐步生成高風險內容

2025-08-12

| Anthropic | AI安全 | 越獄攻擊 | 憲法式分類器 | LLM

Anthropic公開憲法式分類器,大幅降低AI越獄攻擊成功率

Anthropic推出憲法式分類器,透過預設規則與分類器訓練,提高大型語言模型防禦能力。在測試中,該技術將越獄成功率從86%降至4.4%,拒絕率僅增0.38%,現已開放測試平臺供試驗

2025-02-06

| 資安月報 | 資安週報 | 資安一周 | IT周報 | 資安大事記 | 資安事件 | 漏洞修補 | 勒索軟體 | 資料外洩 | 惡意程式 | 法規遵循 | AI治理監管 | AI安全

【資安月報】2023年12月

在2023年12月的資安新聞中,隨著AI安全研究與法規的發展,Security of AI成為最大關注焦點之一,例如英與美等18國共同發布全球首份「安全AI系統開發指南」,以及兩年半前提出的歐盟人工智慧法案AI Act,在2023年12月已達成政治協議與共識,全球首個AI法案即將正式批准

2024-01-18

| 資安週報 | 資安一周 | 資安周報 | IT周報 | 網路攻擊 | AI安全 | CVSS

【資安週報】2023年10月30日到11月3日

本週有2起漏洞修補釋出後遭攻擊者快速鎖定利用的消息值得關注,包括Apache ActiveMQ的1個漏洞與F5 BIG-IP的2個漏洞;在防禦態勢上,近期有5大消息引起我們重視,包括:CVSS 4.0推出、第14版MITRE ATT&CK發布、AI安全高峰會舉行、反勒索軟體高峰會舉行,以及微軟宣布未來安全倡議

2023-11-06

| 大型語言模型 | LLM | 微調 | 安全風險 | AI安全 | 模型安全 | GPT-3.5 Turbo | Llama-2

研究顯示微調LLM會削弱模型安全性

IBM研究院與普林斯頓大學、維吉尼亞科技大學聯合發表的論文指出,有三種方法可以透過微調LLM破壞開發者為模型加入的安全防護,例如數十萬組資料集中一旦含有不到100則的有害資料,就足以影響Meta Llama-2及OpenAI GPT-3.5 Turbo的安全性

2023-10-16

| OpenAI | google | Deepmind | Anthropic | 英國 | AI安全 | Rishi Sunak

OpenAI、Google、Anthropic同意開放英政府優先檢視AI模型

英國首相Rishi Sunak宣布,Google、OpenAI及Anthropic承諾開放英國政府優先檢視自家AI模型,以進行研究或安全性評估

2023-06-19