2017年OpenAI的人工智慧在知名即時戰略遊戲《Dota 2》的1對1比賽中,擊敗人類好手Danylo Ishutin(Dendi),而當時Elon Musk就曾誇下海口,在2018年8月OpenAI的人工智慧團隊OpenAI Five,就會在五對五遊戲中擊敗世界第一的人類團隊。現這個目標看起來越來越接近了,OpenAI Five現在的水準已經達玩家平均之上了

人工智慧在遊戲中贏過人類是一大里程碑,就像之前人工智慧在西洋棋或是象棋中贏過人類一樣,但是Dota以及StarCraft這類的即時戰略遊戲複雜度完全不同,OpenAI表示,操作Dota的人工智慧必須要掌握4個要點,首先是更長的遊戲歷程,西洋棋多數在40手後結束,象棋比較長約為150手,但Dota遊戲平均一局的遊戲時間是45分鐘,每場遊戲需要執行8萬次動作,當然有一些行為影響較小,部分行為可以影響遊戲戰略,而更有一些策略需要在整個遊戲中貫徹,OpenAI Five在每場遊戲至少需要產生2萬次的動作。

另外,人工智慧還要有觀察部分區域的能力,由於戰霧的關係玩家都只能收集到部分資訊,而西洋棋與象棋都是全訊息公開的。再來Dota是個高連續動作空間的遊戲,也就是說每個英雄可以進行數十種動作,許多動作可以對單位或是對地,平均每個英雄有170,000個動作空間,有效動作約略為1,000種,但西洋棋只有35種,象棋也只有250種。最後,人工智慧還需要掌握高維度連續觀察空間,OpenAI透過Valve提供的Bot API觀察發現,遊玩Dota時人類可取得資訊高達2萬條,但西洋棋只有70條,而象棋比較多但也僅有400條。

OpenAI Five學習遊玩Dota的方法完全來自電腦互相對戰,而不使用來自人類的資料,並使用大規模版本的Proximal Policy Optimization進行學習。OpenAI Five花費80%的時間與自己對戰,另外20%與過去的自己對戰,以避免策略崩潰(Strategy Collapse)。OpenAI Five為了要打過人類,也是很努力的接受訓練,系統硬體等級已經與去年訓練1對1的人工智慧全然不同,使用的CPU核心數量超過之前的2倍達128,000個,以及256個P100 GPU,每天取得180年的遊戲經驗,每個角色分開計算則每天約900年。

研究人員認為,要人工智慧掌握長時間遊戲歷程並非一件容易的事,需要從根本上的改進演算法,他們並透過延長未來獎勵的半衰期,讓人工智慧在選擇動作時傾向以未來為重。專業Dota評論員Blitz透過觀看OpenAI Five對戰的情形推測,其目前程度大概落在玩家的中位數,盡管人工智慧最後一擊表現較弱,但是已能合作使用常見的專業策略,在地圖控制上也會傾向取得長期回報而犧牲短期回報。

目前為止,OpenAI Five在5月15日跟程度落在第46百分位數的最佳OpenAI員工隊打成平手,但在6月6日,OpenAI Five壓倒性的打敗最佳OpenAI員工隊,另外還打敗了團隊成員未曾一起合作過,但程度落在第90到99百分位數的觀眾隊,以及成員排名落在第46到90百分位數的Valve員工隊。除此之外,與第93百分位數的業餘隊還有第99百分位數半職業隊交戰的結果,在前三場比賽取得三戰兩勝的佳績。由此趨勢看來,8月OpenAI Five與世界第一團隊之戰,還頗具看頭。


Advertisement

更多 iThome相關內容