Anthropic發布Claude Opus 4與Claude Sonnet 4，前者號稱是全球最強大的程式碼撰寫模型

圖片來源:

Anthropic

AI新創Anthropic今日（5/23）推出新一代Claude模型系列：Claude Opus 4和Claude Sonnet 4 ，並將Claude Opus 4稱為全球最強大的程式碼撰寫模型，在長期任務執行與理解複雜程式碼上都有傑出的表現。

Claude Opus 4和Claude Sonnet 4屬於混合模型，提供兩種模式以供切換，分別是近乎即時的回應，以及深入推理的延伸性思考；此外，它們都可以在延伸思考期間使用各種工具來改善回應；能更準確地遵循指令；並有更好的記憶力。此外，Anthropic也減少了這兩個模型在執行任務時使用捷徑或鑽漏洞的行為，相較於Sonnet 3.7執行代理任務時，新模型參與相關行為的可能性低了65%。

Anthropic特別強調Claude Opus 4在撰寫程式碼的能力。該模型在軟體工程流程測試SWE-bench上達到72.5%的成績，Claude Sonnet 4於該測試也取得了72.7%的成績，超越OpenAI o3的69.1%及Gemini 2.5 Pro的63.2%；Claude Opus 4在命令列操作能力Terminal-bench測試中獲得43.2%的分數，超越Claude Sonnet 4的35.5%、OpenAI o3的30.2%與Gemini 2.5 Pro的25.3%。更令人矚目的是，Opus 4能夠持續工作數小時，在需要數千步驟的長期任務中保持穩定表現，這為AI代理的應用範圍帶來了革命性擴展。

圖片來源／Anthropic

至於Claude Sonnet 4在保持高效率的同時，顯著提升了程式碼撰寫和推理能力，在平衡性能與實用性方面表現出色，適用於日常使用場景。

多家科技業者對Claude Opus 4給予了高度評價。程式碼編輯器公司Cursor說它在複雜程式碼庫理解上有著飛躍式進步；網路開發平臺Replit說它在跨不同文件之變更的精確度上，有了明顯的改善；區塊鏈開發公司Block表示，Claude Opus 4是首個能在程式碼編輯與除錯過程中，實際提升程式碼品質的模型；日本電商巨頭樂天（Rakuten）則藉由一項長達7小時的開源重構任務，驗證了該模型的能力，期間該模型完全獨立運作並維持穩定表現。

而其實Claude Sonnet 4在代理場景的表現也不差，而且處理速度更快，因此，GitHub已宣布要在GitHub Copilot 中的新程式碼撰寫代理中，採用Claude Sonnet 4作為基礎模型。

Pro、Max、Team和Enterprise計畫都包含兩款模型和延伸性思考功能，已透過Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上提供服務。在定價上，Claude Opus 4每百萬token輸入/輸出價格為15/75美元，Claude Sonnet 4則是3/15美元，與上一代模型一致。

熱門新聞