AI已能在Dota2的5對5戰役打敗一般玩家，8月將挑戰世界第一團隊

2017年OpenAI的人工智慧在知名即時戰略遊戲《Dota 2》的1對1比賽中，擊敗人類好手Danylo Ishutin（Dendi），而當時Elon Musk就曾誇下海口，在2018年8月OpenAI的人工智慧團隊OpenAI Five，就會在五對五遊戲中擊敗世界第一的人類團隊。現這個目標看起來越來越接近了，OpenAI Five現在的水準已經達玩家平均之上了。

人工智慧在遊戲中贏過人類是一大里程碑，就像之前人工智慧在西洋棋或是象棋中贏過人類一樣，但是Dota以及StarCraft這類的即時戰略遊戲複雜度完全不同，OpenAI表示，操作Dota的人工智慧必須要掌握4個要點，首先是更長的遊戲歷程，西洋棋多數在40手後結束，象棋比較長約為150手，但Dota遊戲平均一局的遊戲時間是45分鐘，每場遊戲需要執行8萬次動作，當然有一些行為影響較小，部分行為可以影響遊戲戰略，而更有一些策略需要在整個遊戲中貫徹，OpenAI Five在每場遊戲至少需要產生2萬次的動作。

另外，人工智慧還要有觀察部分區域的能力，由於戰霧的關係玩家都只能收集到部分資訊，而西洋棋與象棋都是全訊息公開的。再來Dota是個高連續動作空間的遊戲，也就是說每個英雄可以進行數十種動作，許多動作可以對單位或是對地，平均每個英雄有170,000個動作空間，有效動作約略為1,000種，但西洋棋只有35種，象棋也只有250種。最後，人工智慧還需要掌握高維度連續觀察空間，OpenAI透過Valve提供的Bot API觀察發現，遊玩Dota時人類可取得資訊高達2萬條，但西洋棋只有70條，而象棋比較多但也僅有400條。

OpenAI Five學習遊玩Dota的方法完全來自電腦互相對戰，而不使用來自人類的資料，並使用大規模版本的Proximal Policy Optimization進行學習。OpenAI Five花費80％的時間與自己對戰，另外20％與過去的自己對戰，以避免策略崩潰（Strategy Collapse）。OpenAI Five為了要打過人類，也是很努力的接受訓練，系統硬體等級已經與去年訓練1對1的人工智慧全然不同，使用的CPU核心數量超過之前的2倍達128,000個，以及256個P100 GPU，每天取得180年的遊戲經驗，每個角色分開計算則每天約900年。

研究人員認為，要人工智慧掌握長時間遊戲歷程並非一件容易的事，需要從根本上的改進演算法，他們並透過延長未來獎勵的半衰期，讓人工智慧在選擇動作時傾向以未來為重。專業Dota評論員Blitz透過觀看OpenAI Five對戰的情形推測，其目前程度大概落在玩家的中位數，盡管人工智慧最後一擊表現較弱，但是已能合作使用常見的專業策略，在地圖控制上也會傾向取得長期回報而犧牲短期回報。

目前為止，OpenAI Five在5月15日跟程度落在第46百分位數的最佳OpenAI員工隊打成平手，但在6月6日，OpenAI Five壓倒性的打敗最佳OpenAI員工隊，另外還打敗了團隊成員未曾一起合作過，但程度落在第90到99百分位數的觀眾隊，以及成員排名落在第46到90百分位數的Valve員工隊。除此之外，與第93百分位數的業餘隊還有第99百分位數半職業隊交戰的結果，在前三場比賽取得三戰兩勝的佳績。由此趨勢看來，8月OpenAI Five與世界第一團隊之戰，還頗具看頭。

熱門新聞