圖片來源: 

OpenAI

OpenAI周四(3/5)發布新一代大型語言模型GPT-5.4,並同步於ChatGPT、API與程式開發工具Codex中推出。OpenAI表示,GPT-5.4整合推理、程式開發與AI代理人能力,是目前最適合處理專業知識工作的前沿模型之一。新模型除了強化專業工作能力外,也首次提供原生電腦操作能力,使AI代理人可透過電腦介面直接操作應用程式與瀏覽器。

在模擬真實職場的GDPval評測中,GPT-5.4於83%的任務上表現與人類專業人士相當或更佳。GDPval評測涵蓋金融、製造、醫療、政府與資訊服務等9個產業、44種職業,任務包括建立財務試算表、製作銷售簡報、規畫排班與設計工程流程等,並由相關領域專業人士進行盲測評分。

此外,與GPT-5.2相比,GPT-5.4在可靠性上也有所提升。在使用者曾標記為錯誤的提示測試中,新模型整體回答出現錯誤的機率降低18%,單一事實陳述出現錯誤的機率則降低33%,顯示模型在專業工作場景中的穩定度進一步改善。

在軟體開發上,GPT-5.4於SWE-Bench Pro除錯評測中的得分為57.7%,略高於GPT-5.3-Codex的56.8%;但在測試多步驟開發流程的Terminal-Bench 2.0中,GPT-5.4得分75.1%,低於GPT-5.3-Codex的77.3%。

此次更新的一項重要突破是新增電腦操作能力。根據OpenAI的說法,GPT-5.4可透過螢幕截圖理解電腦介面,並利用滑鼠與鍵盤指令操作軟體與網頁。例如AI代理人可在瀏覽器中讀取電子郵件、下載附件、整理資料並填入試算表,或在不同應用程式之間完成多步驟工作流程,使AI能直接在真實軟體環境中執行任務。

此外,GPT-5.4也強化了AI代理人的工具使用能力。OpenAI在API中新增「Tool Search」機制,使模型在需要使用外部工具時,可先搜尋可用工具並動態載入其定義,而不必在每次請求中載入所有工具資訊。OpenAI表示,此機制可在維持準確度的情況下減少約47%的Token使用量,使AI代理人能在包含大量工具與API的系統中更有效率地完成多步驟任務。

GPT-5.4在API與Codex中支援最高100萬個Token的脈絡長度,但在ChatGPT中仍維持與GPT-5.2相同的27.2萬個Token限制。

OpenAI已逐步於ChatGPT的Plus、Team與Pro方案中推出GPT-5.4,可望取代原有的GPT-5.2 Thinking模型。另也推出效能更高的GPT-5.4 Pro版本,供需要處理複雜任務的企業與開發者使用。

圖片來源/OpenAI

熱門新聞

Advertisement