OpenAI發表可持續執行逾24小時任務的GPT-5.1-Codex-Max

圖片來源:

OpenAI

OpenAI周三（11/19）發表了GPT-5.1-Codex-Max。Codex是個以程式開發為核心的AI模型，新版強調專為長時間且細緻的工作所打造，可持續執行逾24小時的任務，同時也是首個針對Windows環境特別訓練的模型。GPT-5.1-Codex-Max將取代先前的GPT-5.1-Codex，成為所有Codex介面的預設模型。

OpenAI指出，Codex-Max最大的突破在於能處理超大型脈絡。透過名為「壓縮」（Compaction）的機制，模型會在任務進行過程中自動摘要重要內容、移除不必要細節，使其能跨越多個脈絡視窗，在單一任務中連貫處理數百萬個Token。

這讓以往因脈絡限制而難以完成的大型重構、系統級修補或跨檔案依賴追蹤等複雜工程任務變得可行；開發者也能讓模型連續運作數小時甚至整整一天，而不中斷或丟失脈絡。

在基準測試中，Codex-Max在多項指標上全面超越舊版。在SWE-Bench Verified（測AI修復真實專案Bug的能力）中取得77.9%；在SWE-Lancer IC SWE（模擬工程師日常開發任務）中從66.3%升至79.9%；在TerminalBench 2.0（測AI在命令列環境的實作能力）中則提升至58.1%。

OpenAI表示，新模型在維持同樣品質下，可減少約30%的思考Token用量，並在真實任務中提升約27%至42%的執行速度，使開發者能在相同成本下完成更多工作。

這些效能差異在實測中也十分明顯。以GPT-5.1-Codex-Max對比前一代模型，在相同任務下，前代需耗費約3.8萬Token，而Max僅需1.6萬；產生的程式碼從667行減至529行；整體速度更快超過40%。其它測試中，Token使用量亦可從2.6萬降至1.6萬，或從1.2萬降至8,000。

此外，Codex-Max也是首個針對Windows環境特別訓練的模型，可執行更精準的命令列操作，補足過去Mac較占優勢的情況。OpenAI透露，公司內部已有95%的工程師每週使用Codex，自導入後團隊的Pull Request產出量也增加約70%，顯示AI程式助手已深度融入日常開發流程。

目前，Codex-Max已向ChatGPT Plus、Pro、Business、Edu與Enterprise用戶開放存取，API也將於近期推出。

熱門新聞