
AI公司Anthropic公布新版Claude憲章,作為其AI模型Claude的行為準則與價值框架,並同步公開全文。官方表示,該文件不只是對外說明立場,更會在模型訓練中扮演關鍵角色,直接影響Claude在面對複雜情境時如何取捨與回應。以CC0授權釋出,允許任何人自由使用。
相較於過去以多條原則並列的寫法,Anthropic這次選擇把憲章改寫成一份脈絡完整的文件,花更多篇幅解釋希望Claude以特定方式行動的原因,以及這些要求背後的理由。Anthropic的核心主張是,要讓模型在新情境中做出更穩健的判斷,就不能只要求它照規則行事,而是要讓它理解原則的用意與限制,才能在價值衝突時較少落入僵硬套用。
Anthropic也強調,這份憲章主要是寫給Claude看的。文件會交代Claude所處的環境與可能遇到的兩難,並提供應對建議,例如在誠實與同理之間如何拿捏,或在提供協助時如何保護敏感資訊。
Claude憲章會被用在多個階段,除了作為目標規範,Claude也會依據憲章生成合成訓練資料,而這類資料可用來訓練未來版本的Claude,使其更接近憲章所描述的樣貌。
新版憲章也明確提出行為優先順序,Anthropic希望現階段的Claude先確保整體安全,不削弱人類對AI的監督與修正能力,其次是維持廣義倫理,包括誠實與避免造成不當傷害,再來是遵循Anthropic更具體的指引,最後才是對使用者提供實質幫助。Anthropic指出,這種排序並非宣稱安全必然高於倫理,而是考量當前模型仍可能因誤判或缺乏情境而做出危險行為。
Anthropic在憲章中仍保留少數高風險領域的嚴格限制,強調在某些情境下Claude不應提供可能大幅提高危害的協助。Anthropic同時表示,憲章不打算成為僵硬的法律文本,硬性限制僅用於特別高風險、不可逾越的行為邊界,其餘情境仍希望Claude能以理解與判斷來處理例外與灰色地帶。
至於Claude自身的本質,Anthropic承認對於AI是否可能具備某種意識或道德地位仍無定論,僅表達希望Claude在面對相關問題時保持謹慎、穩定與一致的自我理解,以降低風險並維持判斷品質。Anthropic在結語中把這份憲章稱為持續更新的活文件,承認訓練出完全符合憲章的模型仍是技術挑戰,現實行為也可能與意圖出現落差,並表示會在系統卡等文件中揭露這類差距。
熱門新聞
2026-01-21
2026-01-19
2026-01-20
2026-01-21
2026-01-16
2026-01-20