
OpenAI
OpenAI本周四(9/25)發表了GDPval評估標準,用以衡量AI模型在具經濟價值之真實世界任務上的表現,它納入了對美國國內生產毛額(Gross Domestic Product,GDP)最有貢獻的9個產業、44種職業與1,320項具體任務。首次的評測發現,整體表現最佳的是Claude Opus 4.1。
OpenAI表示,GDPval旨在提供一套能反映AI模型真實經濟影響的衡量方法,補足傳統基準測試偏重學術題目或程式競賽的限制。透過對具體工作成果的評估,如法律簡報、工程設計、醫療照護計畫等,GDPval能更貼近專業人士的日常工作,衡量模型在實際生產力上的潛力。
首版GDPval選取了對美國GDP貢獻度超過5%的九大產業,包括房地產、政府、製造業、專業技術服務、醫療保健、金融保險、零售、批發及資訊產業,並在各產業中挑選44個以知識工作為主的職業。每個職業設計30項任務,總計1,320個,皆由平均擁有14年經驗的專業人士撰寫與審核,確保任務的真實性與代表性。OpenAI再從這1,320項任務中選出220個任務組成黃金評估集,作為各AI模型比較評估的標準測試集。
在評估過程中,OpenAI邀請來自各職業的專業評審進行盲測,對比AI模型與人類專家的成果,並依據品質、美觀、準確度等標準打分。OpenAI同時也開發了可模擬專家打分數的自動評分系統,未來將透過evals.openai.com開放研究使用。
OpenAI在GDPval評估中測試了多個尖端AI模型,包括自家的GPT-4o、o4-mini、OpenAI o3與旗艦級的GPT-5,以及其他主要廠商的模型,如Anthropic的Claude Opus 4.1、Google DeepMind的Gemini 2.5 Pro,與xAI的Grok 4。

圖片來源/OpenAI
結果顯示,Claude Opus 4.1在整體表現中略勝其他模型,尤其在文件格式、美觀性與版面設計等項目中獲得最高評價,成果最接近人類專家水準;GPT-5則在專業知識準確度、推理深度與任務完整性方面表現最佳,能更精確地處理複雜的跨領域問題。相較之下,Gemini 2.5 Pro與Grok 4在部分任務中表現穩定,但在專業細節與輸出一致性上仍略有差距。
OpenAI指出,GDPval結果顯示AI模型已能以100倍速度與1%成本完成部分專業任務,未來在重複性高、規範明確的知識工作中,可望成為有效的輔助工具,釋放人類更多時間投入創造性與判斷性工作,並為整體經濟帶來顯著增長潛力。
熱門新聞
2025-12-12
2025-12-16
2025-12-15
2025-12-15
2025-12-15
2025-12-15
2025-12-15
2025-12-16