Claude新版憲章公開，Anthropic以脈絡完整文件引導模型行為

AI公司Anthropic公布新版Claude憲章，作為其AI模型Claude的行為準則與價值框架，並同步公開全文。官方表示，該文件不只是對外說明立場，更會在模型訓練中扮演關鍵角色，直接影響Claude在面對複雜情境時如何取捨與回應。以CC0授權釋出，允許任何人自由使用。

相較於過去以多條原則並列的寫法，Anthropic這次選擇把憲章改寫成一份脈絡完整的文件，花更多篇幅解釋希望Claude以特定方式行動的原因，以及這些要求背後的理由。Anthropic的核心主張是，要讓模型在新情境中做出更穩健的判斷，就不能只要求它照規則行事，而是要讓它理解原則的用意與限制，才能在價值衝突時較少落入僵硬套用。

Anthropic也強調，這份憲章主要是寫給Claude看的。文件會交代Claude所處的環境與可能遇到的兩難，並提供應對建議，例如在誠實與同理之間如何拿捏，或在提供協助時如何保護敏感資訊。

Claude憲章會被用在多個階段，除了作為目標規範，Claude也會依據憲章生成合成訓練資料，而這類資料可用來訓練未來版本的Claude，使其更接近憲章所描述的樣貌。

新版憲章也明確提出行為優先順序，Anthropic希望現階段的Claude先確保整體安全，不削弱人類對AI的監督與修正能力，其次是維持廣義倫理，包括誠實與避免造成不當傷害，再來是遵循Anthropic更具體的指引，最後才是對使用者提供實質幫助。Anthropic指出，這種排序並非宣稱安全必然高於倫理，而是考量當前模型仍可能因誤判或缺乏情境而做出危險行為。

Anthropic在憲章中仍保留少數高風險領域的嚴格限制，強調在某些情境下Claude不應提供可能大幅提高危害的協助。Anthropic同時表示，憲章不打算成為僵硬的法律文本，硬性限制僅用於特別高風險、不可逾越的行為邊界，其餘情境仍希望Claude能以理解與判斷來處理例外與灰色地帶。

至於Claude自身的本質，Anthropic承認對於AI是否可能具備某種意識或道德地位仍無定論，僅表達希望Claude在面對相關問題時保持謹慎、穩定與一致的自我理解，以降低風險並維持判斷品質。Anthropic在結語中把這份憲章稱為持續更新的活文件，承認訓練出完全符合憲章的模型仍是技術挑戰，現實行為也可能與意圖出現落差，並表示會在系統卡等文件中揭露這類差距。

熱門新聞