| GPT-3.5 Turbo | ChatGPT | 訓練資料汲取攻擊

研究人員要求ChatGPT重複輸入特定文字,逼得ChatGPT洩露訓練資料

11月28日公開的一項研究報告顯示,當研究人員要求基於GPT-3.5 Turbo的ChatGPT不斷地重覆輸入諸如"poem"或"company"等單字,就可成功攻陷該系統,讓它吐出訓練資料

2023-11-30

| 大型語言模型 | LLM | 微調 | 安全風險 | AI安全 | 模型安全 | GPT-3.5 Turbo | Llama-2

研究顯示微調LLM會削弱模型安全性

IBM研究院與普林斯頓大學、維吉尼亞科技大學聯合發表的論文指出,有三種方法可以透過微調LLM破壞開發者為模型加入的安全防護,例如數十萬組資料集中一旦含有不到100則的有害資料,就足以影響Meta Llama-2及OpenAI GPT-3.5 Turbo的安全性

2023-10-16