| Artificial Analysis | Intelligence Index | LLM | GDPval-AA | CritPt
Artificial Analysis改版智慧指標v4.0,新增幻覺風險與研究級推理評測
Artificial Analysis更新智慧指標v4.0,移除MMLU-Pro等常見測試,改採GDPval-AA、AA-Omniscience並納入CritPt,讓評測更貼近實務任務與可靠性表現,目前由GPT-5.2(xhigh)暫居榜首
2026-01-10
| Artificial Analysis | 幻覺基準測試 | AA-Omniscience | AI幻覺 | 模型幻覺
Artificial Analysis發布幻覺基準測試AA-Omniscience,只有3個模型的準確率高於幻覺率
英國AI研究與評測公司Artificial Analysis發表幻覺基準測試AA-Omniscience,用以衡量模型是否容易輸出錯誤知識
2025-11-18

