OpenAI推出GPT-5.4，強化專業能力並首度支援AI操作電腦

圖片來源:

OpenAI

OpenAI周四（3/5）發布新一代大型語言模型GPT-5.4，並同步於ChatGPT、API與程式開發工具Codex中推出。OpenAI表示，GPT-5.4整合推理、程式開發與AI代理人能力，是目前最適合處理專業知識工作的前沿模型之一。新模型除了強化專業工作能力外，也首次提供原生電腦操作能力，使AI代理人可透過電腦介面直接操作應用程式與瀏覽器。

在模擬真實職場的GDPval評測中，GPT-5.4於83%的任務上表現與人類專業人士相當或更佳。GDPval評測涵蓋金融、製造、醫療、政府與資訊服務等9個產業、44種職業，任務包括建立財務試算表、製作銷售簡報、規畫排班與設計工程流程等，並由相關領域專業人士進行盲測評分。

此外，與GPT-5.2相比，GPT-5.4在可靠性上也有所提升。在使用者曾標記為錯誤的提示測試中，新模型整體回答出現錯誤的機率降低18%，單一事實陳述出現錯誤的機率則降低33%，顯示模型在專業工作場景中的穩定度進一步改善。

在軟體開發上，GPT-5.4於SWE-Bench Pro除錯評測中的得分為57.7%，略高於GPT-5.3-Codex的56.8%；但在測試多步驟開發流程的Terminal-Bench 2.0中，GPT-5.4得分75.1%，低於GPT-5.3-Codex的77.3%。

此次更新的一項重要突破是新增電腦操作能力。根據OpenAI的說法，GPT-5.4可透過螢幕截圖理解電腦介面，並利用滑鼠與鍵盤指令操作軟體與網頁。例如AI代理人可在瀏覽器中讀取電子郵件、下載附件、整理資料並填入試算表，或在不同應用程式之間完成多步驟工作流程，使AI能直接在真實軟體環境中執行任務。

此外，GPT-5.4也強化了AI代理人的工具使用能力。OpenAI在API中新增「Tool Search」機制，使模型在需要使用外部工具時，可先搜尋可用工具並動態載入其定義，而不必在每次請求中載入所有工具資訊。OpenAI表示，此機制可在維持準確度的情況下減少約47%的Token使用量，使AI代理人能在包含大量工具與API的系統中更有效率地完成多步驟任務。

GPT-5.4在API與Codex中支援最高100萬個Token的脈絡長度，但在ChatGPT中仍維持與GPT-5.2相同的27.2萬個Token限制。

OpenAI已逐步於ChatGPT的Plus、Team與Pro方案中推出GPT-5.4，可望取代原有的GPT-5.2 Thinking模型。另也推出效能更高的GPT-5.4 Pro版本，供需要處理複雜任務的企業與開發者使用。

圖片來源／OpenAI

熱門新聞