Anthropic發布中階模型Claude Sonnet 4.6,該新模型在程式碼生成、電腦操控、長文推理與多步驟任務規畫等核心能力都有提升,定價維持與前代Sonnet 4.5相同,每百萬輸入詞元(Token)3美元、輸出15美元。免費與付費方案用戶現在皆可使用Sonnet 4.6,並首度在Sonnet系列引入百萬詞元上下文視窗。

在程式碼輔助工具Claude Code的內部評測中,用戶在70%的情況下,偏好Sonnet 4.6勝過前代Sonnet 4.5,更有59%的情況勝過Opus 4.5。官方引用使用者回饋指出,Sonnet 4.6在修改程式碼前更能讀懂既有脈絡,會傾向整合共用邏輯而非重複實作;相較前一版,較少出現過度設計、錯誤宣稱任務完成或幻覺輸出,在多步驟任務中的指令遵循與執行一致性也有明顯改善。

電腦操控能力是Claude Sonnet 4.6的另一個重點,其在OSWorld基準測試得分較前代顯著提升,用戶觀察到其在複雜試算表操作與多步驟網頁表單填寫等任務,達到接近人類的水準。OSWorld基準測試模擬真實電腦環境,要求模型在Chrome、LibreOffice、VS Code等軟體中完成數百項任務,且不依賴特殊API或專屬介面,模型須以接近人類的方式操作滑鼠與鍵盤。

另外,Anthropic表示,Sonnet 4.6在對抗提示注入的防禦能力上,較Sonnet 4.5大幅改善,表現與旗艦模型Opus 4.6相當。關於上下文長度方面,Sonnet 4.6提供百萬詞元上下文視窗,可在單次請求容納大型程式碼庫或數十份研究報告。不過,實際可用的上下文上限與啟用條件,會依使用平臺與帳號資格而定。

Sonnet 4.6在Claude開發者平臺開始支援上下文壓縮(Context Compaction)功能,可在對話接近上下文上限時自動摘要較舊內容,以延長有效使用長度。Anthropic也更新API的網路搜尋與擷取工具,加入動態過濾機制,讓模型能自動撰寫並執行程式碼來篩選結果,僅保留相關內容,以提升回應品質並降低詞元消耗。

Anthropic說明,在需要最深層推理的情境下,例如大規模程式碼庫重構或協調多個代理人的複雜工作流程,他們目前仍主推旗艦Opus 4.6。Sonnet 4.6的定位是在更廣泛的使用情境中,提供接近旗艦等級的效能,同時維持具競爭力的成本結構。Claude Sonnet 4.6現已在所有Claude方案、Claude Cowork、Claude Code、Anthropic API及主要雲端平臺上線。

熱門新聞

Advertisement