| Anthropic | Sleeper Agents | LLM | 後門 | 對抗性訓練 | 安全培訓

AI模型的欺騙能力可能持續存在,而成為潛伏的特工

AI新創Anthropic發表由眾多科學家參與的研究報告,指出他們得以訓練出能夠躲過AI系統標準安全培訓的AI模型,並讓模型的欺騙性後門持續存在

2024-01-15