
Anthropic
Anthropic周一(11/24)正式發表最新模型Claude Opus 4.5,帶來長脈絡處理、電腦操作能力、全新effort參數與「無限聊天」等重大升級,同時將價格下修至每百萬個Token輸入5美元、輸出25美元,僅為前一代Opus 4.1的1/3。
Opus 4.5在多項基準測試中達到業界頂尖,包括評測真實程式碼修復能力的SWE-Bench、測試終端機操作與程式環境任務的Terminal-bench、檢驗代理人工具調用效率的tau2-bench,以及評估高難度推理與知識深度的GPQA Diamond。其中最受關注的是,它成為首個在SWE-Bench Verified突破80%的模型,顯示其程式碼修正能力已逼近甚至超越專業水準。
另一個象徵性里程碑,是Opus 4.5首次在Anthropic的工程技術測驗中勝過所有人類考生。這份可帶回家寫的測驗專為效能工程應徵者設計,要求在兩小時內完成高難度題目,以評估技術能力與判斷力。Opus 4.5透過平行推理聚合方式,在限時測驗中拿下歷來最高分;若不設時間限制並在Claude Code中使用,模型表現則與公司過去最佳人類候選人相當。
Opus 4.5也導入新的effort參數,讓開發者可在推理深度、速度與成本間調整運算強度。中等effort時,Opus以遠低於Sonnet 4.5的Token用量即可達到相同最佳成績,節省76%的Token;最高effort則在表現再提升的情況下仍保留近5成的Token節省空間,有助企業依任務需求找出最有效率的運算策略。
為展現Opus在電腦操作上的能力,Anthropic同步釋出可搭配使用的Chrome與Excel整合。Opus 4.5具備新的Screen Zoom Tool,可主動要求放大螢幕區域以檢查按鈕、欄位或UI細節,並能在跨分頁、跨視窗與大型文件間進行更精準的操作。Chrome擴充功能將此能力延伸至瀏覽器工作流程,而Excel整合則讓模型能協助生成樞紐分析、圖表與跨表格處理,展現其在電腦任務中的實際應用。
在長脈絡處理上,Opus 4.5重新調整模型的記憶管理策略,加入「選擇性脈絡壓縮」機制,能在脈絡逼近上限時自動萃取並保留關鍵內容,不會中斷對話或產生脈絡錯置,也不需使用者自行摘要。此一變更帶來「無限聊天」功能,讓跨天、跨檔案、跨多輪的長程專案能夠持續進行而不受脈絡限制。
儘管Opus 4.5的價格大幅調降2/3,但相較競爭對手仍屬偏高。例如OpenAI GPT-5.1每百萬Token的輸入費用為1.25美元、輸出為10美元;Google Gemini 3 Pro則為輸入2美元、輸出12美元。
熱門新聞
2025-12-31
2025-12-31
2025-12-31
2025-12-31
2026-01-02
2025-12-31
2025-12-31