一群來自Stanford、Harvard、Yale、Berkeley等多所大學的數學家,於2026年2月在arXiv發布《First Proof》,提出10道源自實際研究過程的數學問題,旨在建立更貼近真實學術流程的評估方法,以檢驗AI能否自主完成研究級數學證明。OpenAI於2月14日公開其模型對這10題的證明嘗試,並表示其中至少5題具有高度正確可能。

不同於數學競賽題目,First Proof所提出的10道問題皆來自作者實際研究過程中的關鍵中間命題(Lemma),是數學家在撰寫論文或推進理論時自然產生的問題,答案尚未公開並經加密處理,以避免資料污染。此外,這些題目需要完整、可被專家逐步驗證的證明,而非簡短數值答案。

作者強調,此實驗聚焦於數學研究的「最後一個階段」——在既有理論框架下完成嚴謹證明。他們希望透過這種設計,測試AI是否具備長鏈推理與學術級嚴謹度,而非僅在競賽式基準測試中取得高分。

至於OpenAI則是採用一個新的內部模型來測試上述10道First Proof題目,這些問題需要於專門領域中建立端到端的論證,而作者都是各領域的專家;OpenAI在2月14日公開證明嘗試,根據迄今所取得的回饋,至少有5題具備高度正確可能。

OpenAI表示,前沿研究挑戰是評估下一代AI能力最重要的方式之一,基準測試固然有用,但往往無法捕捉研究中最困難的部分,包括維持長鏈推理、選擇正確抽象架構、處理問題陳述中的模糊性,以及產出經得起專家檢驗的論證。First Proof這類挑戰讓我們能在正確性難以立即驗證、且失敗模式具有啟發性的情境中,壓力測試模型能力。

OpenAI研究員James Lee說,OpenAI正在訓練一個新模型,主要目標是提升思考的嚴謹程度,希望模型能連續思考數小時,並對結論保持高度信心,當First Proof問題公布時,即成為理想的測試場域。

在測試過程中,OpenAI採取有限的人類監督。於訓練期間提示模型時,有時會建議其重新嘗試先前有效的策略;有時在收到專家回饋後,會要求模型擴充或澄清證明內容,以利驗證。

OpenAI已另外公開一份完整證明文件,收錄模型對10道題目的完整證明內容,並附上提示策略與測試過程說明。

熱門新聞

Advertisement