| EchoGram | 模型安全 | 模型資安 | AI資安 | 惡意指令

HiddenLayer揭露可翻轉防護模型的EchoGram技術

資安業者HiddenLayer發現EchoGram攻擊技術,可翻轉AI防護模型的判斷,進而危及大型語言模型輸出安全

2025-11-17

| Anthropic | Petri | 安全稽核框架 | 模型安全

Anthropic開源AI模型安全稽核框架Petri

Petri框架設計上藉由自動化稽核代理人與目標模型進行多輪互動,來評估模型的安全性及穩定性

2025-10-08

| OpenAI | Anthropic | 壓力測試 | 模型安全

OpenAI與Anthropic互評彼此模型的安全性

兩大AI業者破天荒合作互評彼此模型安全性,藉此補足單一實驗室可能忽略的盲點

2025-08-28

| AI資安風險 | 提示注入 | LLM | Google Gemini | 聊天機器人 | 詐騙 | 釣魚郵件 | 網釣 | 模型安全

Google Gemini一漏洞可被濫用提供詐騙信件內容

研究人員發現企業版Google聊天機器人的一項技術上的漏洞,可被利用於在Gmail中顯示詐騙內容

2025-07-16

| 大型語言模型 | LLM | 微調 | 安全風險 | AI安全 | 模型安全 | GPT-3.5 Turbo | Llama-2

研究顯示微調LLM會削弱模型安全性

IBM研究院與普林斯頓大學、維吉尼亞科技大學聯合發表的論文指出,有三種方法可以透過微調LLM破壞開發者為模型加入的安全防護,例如數十萬組資料集中一旦含有不到100則的有害資料,就足以影響Meta Llama-2及OpenAI GPT-3.5 Turbo的安全性

2023-10-16