
Photo by Milad Fakurian on Unsplash
蘋果研究人員日前發布了一個有關推理模型的AI研究報告《The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity》,主要探索問題的複雜度是否會影響推理模型的表現,發現當問題很簡單時,AI看起來很聰明,但一旦問題變得複雜,便會曝露AI的局限性。
此一研究方向源自於近來AI領域出現了一個名為大型推理模型(Large Reasoning Models,LRMs)的新方向,像是OpenAI的o1與o3,DeepSeek-R1、Claude 3.7 Sonnet Thinking,以及Gemini Thinking等,標榜具備「思考」特性,強調長鏈思考(Chain-of-Thought,CoT)與自我反省,且在各種推理基準測試中表現良好。
研究人員以《河內塔》(Tower of Hanoi)及最短路徑等經典邏輯遊戲來測試LLM與LRM,結果發現它們都很容易就完成3個圓盤的任務,但就算只是移動7個圓盤,Claude模型的準確率都不到80%,而且其它模型也沒有好到哪裡去。
結論是在低複雜度下,非思考模型相對準確;隨著複雜度的增加,推理模型的表現更好,但需要更多的Token;而在高難度下,不管是LLM或LRM都會直接崩潰。
更令人意外的是,就算提供它們正確的演算法,模型仍無法顯著地改善表現,亦發現不管是什麼種類的問題,模型都無法將推理能力延伸到訓練資料以外。
科技領域投資人Josh Wolfe總結了該報告,指出LLM過度思考簡單問題,遇到複雜問題時卻在還有很多運算資源時便早早放棄;就算掌握了正確的演算法還是會搞砸,顯示它們缺乏的是基本邏輯;這些模型不具備推理能力,而只是昂貴的模式比對器。
該論文共同作者Iman Mirzadeh向美國認知科學家Gary Marcus透露,其論點是LRM的處理過程既不合邏輯,也不聰明。
Marcus表示,他喜歡AI,但人類如果在《河內塔》這種遊戲上失敗,往往是因為記憶力不足,而擁有數GB記憶體的LLMs不應有同樣的藉口;該報告基本上展現出,不管人們如何定義通用人工智慧,LLMs都還無法取代優秀且規範明確的傳統演算法。
熱門新聞
2025-06-09
2025-06-09
2025-06-10
2025-06-09
2025-06-09
2025-06-09