Deepmind新AI精通複雜度高過圍棋的西洋陸軍棋Stratego

Deepmind發表能夠精通西洋陸軍棋Stratego的人工智慧代理DeepNash，Stratego是一款經典的棋盤遊戲，比象棋和圍棋更複雜，而且因為玩家無法看到對方的旗，因此具有不完全訊息，大幅增加人工智慧遊玩的難度，但DeepNash在線上Stratego平臺Gravon，與人類專家比賽排名進入前三名。

研究人員提到，棋盤遊戲一直是衡量人工智慧進步的指標，因為可以在受控環境中，研究人類和機器的策略制定和執行。但是Stratego與象棋和圍棋不同，玩家無法直接觀察對手的棋子，因此複雜度極高，使得一般人工智慧難以超越業餘玩家的水準。

過去應用在象棋和圍棋的遊戲樹搜尋技術，在Stratego已經不管用，Deepmind所開發的人工智慧DeepNash，則是使用結合博奕理論和無模型深度強化學習方法的新技術，來精通Stratego贏過人類專家。

研究人員解釋，所謂的無模型，代表DeepNash不會試圖在遊戲過程明確地模擬對手的私密遊戲狀態，而且因為Stratego的遊戲樹太過複雜，DeepNash無法使用典型的蒙地卡羅樹搜尋法，因為該方法只適用於不太複雜的棋盤遊戲或是撲克牌遊戲。

研究人員參考博弈論演算法，使用稱為R-NaD（Regularised Nash Dynamics）的方法，使DeepNash的學習行為朝向納許均衡（Nash Equilibrium）發展，這項策略使DeepNash擁有超高勝率，最差的勝率是50％。

DeepNash與最先進的Stratego機器人比賽，DeepNash的勝率高達97％，而且經常處在100％勝率的狀態，而在Gravon遊戲平臺對抗頂尖玩家時，DeepNash勝率是84％，最後還進入排名前三。

為了不被破解，DeepNash制定了一種不可預測的策略，這代表人工智慧會進行一系列初始部署，防止對手在遊玩的時候發現模式，另外，DeepNash也會仔細評估對手試圖隱藏的資訊，即便局面呈現劣勢，也能加以利用進階情報獲得勝利。Stratego是一個需要虛張聲勢的遊戲，DeepNash學會各種虛張聲勢的策略，甚至能夠運用小棋子引誘間諜進入伏擊位置，消滅關鍵的棋子。

熱門新聞