
OpenAI接連推出開發工具,上周公布Codex桌機版及代理人管理平臺Frontier後,又推出了最新版AI代理式程式編寫模型GPT-5.3-Codex。OpenAI並稱這是該公司第一個「可建立自己」的AI模型。
OpenAI稱,GPT-5.3-Codex可將Codex應用情境擴展至桌機電腦的各類專業工作,號稱是能力最強的智慧代理式程式碼撰寫模型。GPT-5.3-Codex具備GPT-5.2 Codex的程式設計效能,context windows同為400k,和GPT-5.2的推理及專業知識,可支援研究、工具操作或複雜執行流程的長時間任務。受惠於基礎設施與推理堆疊的改進,Codex使用者整體速度提升25%。
GPT‑5.3-Codex是專為NVIDIA GB200 NVL72系統共同設計、訓練並部署的模型。OpenAI強調,GPT‑5.3-Codex在標竿測試SWE-Bench Pro和Terminal-Bench的表現業界最強。根據SWE-Bench Pro的跑分成績,在相同輸出token中(不到20K token時)GPT‑5.3-Codex(>50%)優於自家的GPT‑5.2-Codex及GPT‑5.2(<50%)。而在Terminal-Bench 2.0測試中,GPT‑5.3-Codex準確度(77%)也優於兩個自家模型。(64.0%及62.2%)。
新模型緊接Anthropic上周公布的Claude Opus 4.6,頗有較勁意味。根據Terminal-Bench 2.0的測試結果,在搭配不同代理人情況下GPT-5.3-Codex在某些測試分數達到約75.1–77.3%的最高分,而Claude Opus 4.6測試分數約65.4–69.9%左右。
在整體開發能力上,OpenAI強調GPT‑5.3-Codex具備更強的編碼、美學和壓縮優化能力,能在數天之內從零開始進展到建立複雜的遊戲及應用程式。例如配合Codex App和GPT‑5.3-Codex,可自主反覆迭代開發出第二代賽車和潛水遊戲,而在一般網站開發上,新模型比前代更能理解開發人員意圖,即使開發人員提示詞不精確或太少。OpenAI舉例它可在開發商品網站時,製作三則推薦輪播,或將年費自動拆解成相較於月費的折扣。
一如對Codex桌機版本的描述,OpenAI也說GPT‑5.3-Codex是為支援整個軟體生命週期而打造,包括偵錯、部署、監控、撰寫PRD、編輯文案、使用者研究、測試、指標等各種工作。OpenAI表示,這個新模型GPT‑5.3-Codex代表向單一通用代理人邁出關鍵一步。
值得一提的是,OpenAI宣稱GPT‑5.3-Codex是該公司第一個在打造自身(create itself)過程中發揮關鍵作用的模型。也就是說它的早期版本協助開發正式版本。OpenAI描述,Codex團隊使用GPT‑5.3-Codex早期版本來針對訓練流程除錯、管理部署,並診斷測試結果與評估。根據專業網站指出,這是業界專家稱「AI輔助AI開發」的重大進展。
GPT‑5.3-Codex現在可透過付費ChatGPT方案使用,支援所有Codex可運作的平臺,包括應用程式、CLI、IDE擴充功能與網頁版。OpenAI也正積極準備在安全的前提下,於近期開放API存取。
熱門新聞
2026-02-26
2026-02-27
2026-02-27
2026-02-27
2026-02-27
2026-03-02
2026-02-27