圖示說明語言模型在判斷生成內容正確性時的差異,拼字任務可穩定學習,計數容易出錯,生日等隨機事實則無規律可循,因而常產生幻覺。

OpenAI在最新研究指出,大型語言模型頻繁出現幻覺(Hallucination),主因在於現行評測(Evaluation)與訓練機制設計不當,讓模型在不確定時更傾向猜測而非承認不知道。研究指出,當主流評測榜單只看答對率,模型在不確定時傾向猜測而非承認不知道,最終以更高的自信錯誤(Confident Error)率換取更漂亮的分數。

OpenAI主張,評測應對自信錯誤的回答給予更重的懲罰,並對適當的不確定表達給予部分分數,以矯正模型在不確定時傾向亂猜的行為。

OpenAI將幻覺定義為看似可信但不正確的回答。研究團隊以實際案例說明其普遍性,例如詢問作者Adam Tauman Kalai的論文題名或生日,當前聊天機器人能給出多個且互相矛盾的答案,這類錯誤在現行只採計準確率的評測中並未被完整反映,因為猜中一次即可提高分數,而誠實以對的「我不確定」則保證拿零分。

這就如同選擇題的答題策略,面對不知道的題目,盲猜仍有機會對一題,空白必定得零,如果模型在數千題測試中一律猜測,最終可能比懂得在不確定時收手的模型拿到更高的準確率,卻伴隨更多出錯。

OpenAI在GPT5系統說明卡以SimpleQA呈現此矛盾,gpt-5-thinking-mini的棄答率52%、準確率22%、錯誤率26%,而相較之下,OpenAI o4-mini的棄答率僅1%,但準確率24%、錯誤率高達75%。要是只看準確率,o4-mini略勝,但是就自信錯誤率而言,gpt-5-thinking-mini明顯更低,這代表在只注重準確率的基準測試榜單,偏向猜測的模型可能名次更好,但實際使用時更容易產生幻覺。

研究也從訓練機制解釋幻覺的來源,大型語言模型預訓練從預測下一字詞中學習,觀察到的大多是流暢語句的正例,缺乏明確標記為錯誤的反例。對於規則明確的任務,例如拼字或括號匹配,模型能隨著規模與資料增加學到穩定模式,錯誤自然會下降,但像某人生日這類低頻且隨機性高的事實,無法從語料分布可靠推斷,因此始終存在一個無法完全消除的最低錯誤率。

OpenAI提出的解法著重在改變評測與計分,研究人員建議將主要評測指標改為同時考量準確、錯誤與棄答,把自信且錯誤的回答視為比棄答更嚴重,並對恰當的不確定表達給予部分積分。這種對錯誤給予負分,對不確定回應給予部分分數的方式並不是新概念,一些標準化考試早已採用類似設計,學術界也已提出校準與不確定性導向的評測方法。不過OpenAI指出,如果只在少數評測中加入能容許不確定性的設計,仍不足以改變目前主流榜單只看準確率高低的排序方式。

該研究提供數項重要結論,其一,單靠提升準確率無法消滅幻覺,因為真實任務中總有不可回答或需澄清的問題,使準確率難以達到100%。其二,幻覺並非必然,模型可以在不確定時選擇棄答。其三,避免幻覺不必然仰賴更大的模型,小模型在明顯超出能力範圍時更容易說不知道,而良好校準所需計算未必比高準確更高。

OpenAI最新模型在推理場景的幻覺率已較以往更低,不過,問題仍未完全解決。

熱門新聞

Advertisement