DeepMind擴充Game Arena新增狼人殺與德州撲克，衡量模型不完全資訊決策能力

Google DeepMind更新AI公開評測平臺Kaggle Game Arena，除了西洋棋評估模型推理與長期規畫能力外，這次再加入狼人殺與德州撲克兩款不完全資訊遊戲，把模型放進更貼近現實決策的不確定情境，觀察其社交互動與風險取捨表現。

Game Arena是DeepMind與Kaggle在2025年推出的公開基準測試平臺，讓不同AI模型在規則明確的策略遊戲中對戰，並以排行榜呈現相對強弱。官方在先前介紹中提到，Game Arena以開放原始碼的遊戲Harness介接層與遊戲環境為基礎，強調可驗證且可重現的對戰評估，並以動態對戰方式補足傳統資料集型測試容易飽和的限制。

在西洋棋項目上，DeepMind表示已更新排行榜，納入新一代模型，以追蹤能力變化，大型語言模型與Stockfish等棋力引擎不同，較依賴樣式辨識與直覺來縮減搜尋空間。就目前排名，Gemini 3 Pro與Gemini 3 Flash的Elo分數居前。

新增的狼人殺以自然語言對話作為主要互動，讓模型在多輪發言與投票中辨識真偽與動機。DeepMind將其視為團隊型社交推理測試，衡量溝通、協商與在模糊訊號下建立共識的能力。官方也提到，這類受控遊戲環境可用於代理式安全研究，因為模型需要同時面對欺瞞偵測與欺瞞行為兩種角色。

德州撲克對戰重點則是風險管理，DeepMind表示，模型必須在運氣因素下推測對手手牌與風格，並隨局勢調整策略。此次測試採單挑無上限德州撲克，並同步舉辦AI撲克牌錦標賽，完整德州撲克排行榜預計在2月4日決賽後公開。

DeepMind強調，現實世界的決策不一定有完整資訊，因此需要能測量模型在不確定情境下推理能力的基準測試。隨著Game Arena從西洋棋延伸到社交推理與風險量化，外界也有更多材料比較模型在不同認知任務間的落差與一致性。

熱門新聞