在7月的時候,DeepMind宣布其《星海爭霸 2》(StarCraft II)人工智慧AlphaStar將上天梯與玩家對戰,而現在DeepMind公布最新的結果,AlphaStar的排名在天梯活躍玩家99.8%之上,而且人類、神族和蟲族三大種族都達到大師(Grandmaster)等級。

自我對戰(Self-play)和學習系統是不少遊戲人工智慧系統的強化策略,像是圍棋與象棋的人工智慧AlphaGo和AlphaZero,還有遊戲《Dota 2》的人工智慧OpenAI Five,都以自我對戰方法達到一定程度的水準。

但是DeepMind表示,自我對戰存在明顯的缺點,一個與自己競爭的人工智慧代理會不停的進步,但也可能會忘記與先前自己對戰的能力,而形成無盡的迴圈,導致結果無法收斂或是無法達到真正的進步,就以剪刀石頭布的遊戲為例,一開始代理可能喜歡使用石頭,隨著自我對戰,代理可能會轉為使用剪刀,但是後來又發現使用布可以提升勝率,而進入一個循環。

DeepMind最新的研究認為,自我對戰策略不足以產生一個真正強大的代理,因此著手研究新的通用解決方案,而DeepMind最新發表在Nature上的論文,將自我對戰的的概念,擴展成一群代理戰隊。研究人員解釋,通常在自我對戰中,每個代理都會盡最大程度的努力贏對手,但這僅是解決方案的一部分,在真正的世界中,想要在《星海爭霸 2》獲勝的玩家,會選擇與朋友搭檔,並且訓練特定的策略。

也就是說,訓練的夥伴並不是要贏所有潛在的玩家,而是幫助朋友發現自己的缺點,改進各自的遊戲技術,而代理聯盟也是利用這個想法,目標不僅是要讓主要的代理在遊戲中獲勝,同時輔助代理則要透過揭露主要代理的缺點,最大程度幫助主要代理成長。透過這樣的方式,代理聯盟自己學會了所有《星海爭霸 2》中的複雜策略。

另外,DeepMind還提到,由於《星海爭霸 2》的動作空間太大,每個時間點可執行的動作高達1,026個,每場遊戲要執行數千次的動作才可能決定勝負,而巨大的動作空間讓許多增強學習方法無效,因此AlphaStar現在使用一種稱為Off-Policy的增強學習演算法,可有效率地從舊遊戲策略更新成新策略。

最新的AlphaStar代理,在Battle.net上匿名進行遊戲,並且現在操作人類、神族和蟲族三個種族都達到了大師等級。DeepMind強調,AlphaStar沒有靠作弊來贏得比賽,經專業玩家認可,其使用的攝影機介面提供類似人類玩家可取得的資訊,而且AlphaStar也被限制了手速與人類玩家相當。


Advertisement

更多 iThome相關內容