圖片來源: 

DeepMind

DeepMind最近發表用強化學習訓練AI模型的新進展,在複雜多人連線3D遊戲《雷神之鎚III競技場》中的奪旗競賽場景,AI玩家的表現已達人類水準,能夠成功地與人類玩家合作,不僅如此,該AI模型的研究成果,也可以擴展到《雷神之鎚III競技場》完整的遊戲場景中,該研究顯示多代理人(multi-agent)訓練在AI領域開發上的潛力。

這個研究的目標是多代理人學習,也就是每個個別的代理人都必須獨立行動,並學會與其他代理人互動和合作,DeepMind指出,地球上有數十億的人居住,每個人都有自己的目標和活動,但是仍然可以透過團體組織和社會聚集在一起,展現出集體智慧,這就是DeepMind期望AI玩家能學會的能力,不過,這也是一個非常困難的任務,因為環境一直在改變。

為了研究這道難題,DeepMind利用3D第一視角的多人連線遊戲,來訓練AI模型,這些遊戲能夠代表最受歡迎的遊戲種類,並且也因為沉浸式的遊戲方式,可以收集到數百萬遊戲玩家的想像,也能使AI學習到策略、技巧、手眼協調和團隊合作,對AI玩家來說,挑戰是要直接從原始的像素資料直接學習,並產生動作,這樣的複雜度也使得第一視角的多人連線遊戲,成為豐富的AI訓練資源。

首先,DeepMind訓練AI玩家學習像其他玩家一樣行動,而且要學會與同隊的玩家合作,不管是AI或是人類玩家,奪旗競賽的規則很簡單,但是動態的變化卻很複雜,兩個隊伍各自的玩家要在給定的地圖上,搶奪對方隊伍的旗幟帶回自己的基地,同時又要保護自己隊伍的旗幟,若點擊持有自己隊伍旗幟的敵對玩家,就能將旗幟送回原本的基地,在5分鐘內擁有最多旗幟的隊伍即獲勝。

從遊戲AI玩家的角度來看,奪旗競賽需要玩家與團隊合作一起對抗敵人,為了讓研究變得更有趣,DeepMind為奪旗競賽增添了一些變數,每個競賽中的地圖配置都不相同,如此一來,AI玩家就被迫要找出通用的策略,而不是靠著記憶地圖來完成任務,除此之外,為了確保競爭環境公平,AI玩家和人類玩家是用類似的方式玩奪旗遊戲,AI玩家觀察像素圖像的串流資料,並透過模擬遊戲控制器來產生執行動作。

DeepMind所用的強化學習有3大概念,第一,DeepMind訓練了一群AI玩家,而不是只有一個,因此,AI之間可以互相學習,提供多元的隊友或是敵人,第二,每個AI玩家都會學習自己的內部獎勵訊號,使得AI產生自己的內部目標,像是搶奪旗幟,第三,AI玩家執行遊戲的時間區段的分為快和慢兩種,來改善AI使用記憶體和產生一致行動序列的能力。


Advertisement

更多 iThome相關內容