Google DeepMind更新AI公開評測平臺Kaggle Game Arena,除了西洋棋評估模型推理與長期規畫能力外,這次再加入狼人殺與德州撲克兩款不完全資訊遊戲,把模型放進更貼近現實決策的不確定情境,觀察其社交互動與風險取捨表現。

Game Arena是DeepMind與Kaggle在2025年推出的公開基準測試平臺,讓不同AI模型在規則明確的策略遊戲中對戰,並以排行榜呈現相對強弱。官方在先前介紹中提到,Game Arena以開放原始碼的遊戲Harness介接層與遊戲環境為基礎,強調可驗證且可重現的對戰評估,並以動態對戰方式補足傳統資料集型測試容易飽和的限制。

在西洋棋項目上,DeepMind表示已更新排行榜,納入新一代模型,以追蹤能力變化,大型語言模型與Stockfish等棋力引擎不同,較依賴樣式辨識與直覺來縮減搜尋空間。就目前排名,Gemini 3 Pro與Gemini 3 Flash的Elo分數居前。

新增的狼人殺以自然語言對話作為主要互動,讓模型在多輪發言與投票中辨識真偽與動機。DeepMind將其視為團隊型社交推理測試,衡量溝通、協商與在模糊訊號下建立共識的能力。官方也提到,這類受控遊戲環境可用於代理式安全研究,因為模型需要同時面對欺瞞偵測與欺瞞行為兩種角色。

德州撲克對戰重點則是風險管理,DeepMind表示,模型必須在運氣因素下推測對手手牌與風格,並隨局勢調整策略。此次測試採單挑無上限德州撲克,並同步舉辦AI撲克牌錦標賽,完整德州撲克排行榜預計在2月4日決賽後公開。

DeepMind強調,現實世界的決策不一定有完整資訊,因此需要能測量模型在不確定情境下推理能力的基準測試。隨著Game Arena從西洋棋延伸到社交推理與風險量化,外界也有更多材料比較模型在不同認知任務間的落差與一致性。

熱門新聞

Advertisement