OpenAI發表用來評估AI模型經濟價值的GDPval標準

圖片來源:

OpenAI

OpenAI本周四（9/25）發表了GDPval評估標準，用以衡量AI模型在具經濟價值之真實世界任務上的表現，它納入了對美國國內生產毛額（Gross Domestic Product，GDP）最有貢獻的9個產業、44種職業與1,320項具體任務。首次的評測發現，整體表現最佳的是Claude Opus 4.1。

OpenAI表示，GDPval旨在提供一套能反映AI模型真實經濟影響的衡量方法，補足傳統基準測試偏重學術題目或程式競賽的限制。透過對具體工作成果的評估，如法律簡報、工程設計、醫療照護計畫等，GDPval能更貼近專業人士的日常工作，衡量模型在實際生產力上的潛力。

首版GDPval選取了對美國GDP貢獻度超過5%的九大產業，包括房地產、政府、製造業、專業技術服務、醫療保健、金融保險、零售、批發及資訊產業，並在各產業中挑選44個以知識工作為主的職業。每個職業設計30項任務，總計1,320個，皆由平均擁有14年經驗的專業人士撰寫與審核，確保任務的真實性與代表性。OpenAI再從這1,320項任務中選出220個任務組成黃金評估集，作為各AI模型比較評估的標準測試集。

在評估過程中，OpenAI邀請來自各職業的專業評審進行盲測，對比AI模型與人類專家的成果，並依據品質、美觀、準確度等標準打分。OpenAI同時也開發了可模擬專家打分數的自動評分系統，未來將透過evals.openai.com開放研究使用。

OpenAI在GDPval評估中測試了多個尖端AI模型，包括自家的GPT-4o、o4-mini、OpenAI o3與旗艦級的GPT-5，以及其他主要廠商的模型，如Anthropic的Claude Opus 4.1、Google DeepMind的Gemini 2.5 Pro，與xAI的Grok 4。

圖片來源／OpenAI

結果顯示，Claude Opus 4.1在整體表現中略勝其他模型，尤其在文件格式、美觀性與版面設計等項目中獲得最高評價，成果最接近人類專家水準；GPT-5則在專業知識準確度、推理深度與任務完整性方面表現最佳，能更精確地處理複雜的跨領域問題。相較之下，Gemini 2.5 Pro與Grok 4在部分任務中表現穩定，但在專業細節與輸出一致性上仍略有差距。

OpenAI指出，GDPval結果顯示AI模型已能以100倍速度與1%成本完成部分專業任務，未來在重複性高、規範明確的知識工作中，可望成為有效的輔助工具，釋放人類更多時間投入創造性與判斷性工作，並為整體經濟帶來顯著增長潛力。

熱門新聞