圖片來源: 

Anthropic

AI新創Anthropic今日(5/23)推出新一代Claude模型系列:Claude Opus 4和Claude Sonnet 4 ,並將Claude Opus 4稱為全球最強大的程式碼撰寫模型,在長期任務執行與理解複雜程式碼上都有傑出的表現。

Claude Opus 4和Claude Sonnet 4屬於混合模型,提供兩種模式以供切換,分別是近乎即時的回應,以及深入推理的延伸性思考;此外,它們都可以在延伸思考期間使用各種工具來改善回應;能更準確地遵循指令;並有更好的記憶力。此外,Anthropic也減少了這兩個模型在執行任務時使用捷徑或鑽漏洞的行為,相較於Sonnet 3.7執行代理任務時,新模型參與相關行為的可能性低了65%。

Anthropic特別強調Claude Opus 4在撰寫程式碼的能力。該模型在軟體工程流程測試SWE-bench上達到72.5%的成績,Claude Sonnet 4於該測試也取得了72.7%的成績,超越OpenAI o3的69.1%及Gemini 2.5 Pro的63.2%;Claude Opus 4在命令列操作能力Terminal-bench測試中獲得43.2%的分數,超越Claude Sonnet 4的35.5%、OpenAI o3的30.2%與Gemini 2.5 Pro的25.3%。更令人矚目的是,Opus 4能夠持續工作數小時,在需要數千步驟的長期任務中保持穩定表現,這為AI代理的應用範圍帶來了革命性擴展。

圖片來源/Anthropic

至於Claude Sonnet 4在保持高效率的同時,顯著提升了程式碼撰寫和推理能力,在平衡性能與實用性方面表現出色,適用於日常使用場景。

多家科技業者對Claude Opus 4給予了高度評價。程式碼編輯器公司Cursor說它在複雜程式碼庫理解上有著飛躍式進步;網路開發平臺Replit說它在跨不同文件之變更的精確度上,有了明顯的改善;區塊鏈開發公司Block表示,Claude Opus 4是首個能在程式碼編輯與除錯過程中,實際提升程式碼品質的模型;日本電商巨頭樂天(Rakuten)則藉由一項長達7小時的開源重構任務,驗證了該模型的能力,期間該模型完全獨立運作並維持穩定表現。

而其實Claude Sonnet 4在代理場景的表現也不差,而且處理速度更快,因此,GitHub已宣布要在GitHub Copilot 中的新程式碼撰寫代理中,採用Claude Sonnet 4作為基礎模型。

Pro、Max、Team和Enterprise計畫都包含兩款模型和延伸性思考功能,已透過Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上提供服務。在定價上,Claude Opus 4每百萬token輸入/輸出價格為15/75美元,Claude Sonnet 4則是3/15美元,與上一代模型一致。

熱門新聞

Advertisement