| Anthropic | BLOOM | 模型對齊 | 行為評估 | Claude

Anthropic開源Bloom自動生成行為評估,量化模型偏差與風險行為

Anthropic開源Bloom,在研究者定義目標行為後,Bloom自動生成多種情境測試模型,量化行為頻率與嚴重程度,並公布4項對齊相關行為在16款先進模型上的基準結果

2025-12-24