Deepmind發表能夠精通西洋陸軍棋Stratego的人工智慧代理DeepNash,Stratego是一款經典的棋盤遊戲,比象棋和圍棋更複雜,而且因為玩家無法看到對方的旗,因此具有不完全訊息,大幅增加人工智慧遊玩的難度,但DeepNash在線上Stratego平臺Gravon,與人類專家比賽排名進入前三名。

研究人員提到,棋盤遊戲一直是衡量人工智慧進步的指標,因為可以在受控環境中,研究人類和機器的策略制定和執行。但是Stratego與象棋和圍棋不同,玩家無法直接觀察對手的棋子,因此複雜度極高,使得一般人工智慧難以超越業餘玩家的水準。

過去應用在象棋和圍棋的遊戲樹搜尋技術,在Stratego已經不管用,Deepmind所開發的人工智慧DeepNash,則是使用結合博奕理論和無模型深度強化學習方法的新技術,來精通Stratego贏過人類專家。

研究人員解釋,所謂的無模型,代表DeepNash不會試圖在遊戲過程明確地模擬對手的私密遊戲狀態,而且因為Stratego的遊戲樹太過複雜,DeepNash無法使用典型的蒙地卡羅樹搜尋法,因為該方法只適用於不太複雜的棋盤遊戲或是撲克牌遊戲。

研究人員參考博弈論演算法,使用稱為R-NaD(Regularised Nash Dynamics)的方法,使DeepNash的學習行為朝向納許均衡(Nash Equilibrium)發展,這項策略使DeepNash擁有超高勝率,最差的勝率是50%。

DeepNash與最先進的Stratego機器人比賽,DeepNash的勝率高達97%,而且經常處在100%勝率的狀態,而在Gravon遊戲平臺對抗頂尖玩家時,DeepNash勝率是84%,最後還進入排名前三。

為了不被破解,DeepNash制定了一種不可預測的策略,這代表人工智慧會進行一系列初始部署,防止對手在遊玩的時候發現模式,另外,DeepNash也會仔細評估對手試圖隱藏的資訊,即便局面呈現劣勢,也能加以利用進階情報獲得勝利。Stratego是一個需要虛張聲勢的遊戲,DeepNash學會各種虛張聲勢的策略,甚至能夠運用小棋子引誘間諜進入伏擊位置,消滅關鍵的棋子。

熱門新聞

Advertisement