圖片來源: 

不只在西洋棋以及即時戰略遊戲Dota,人類玩家打不贏電腦,現在連賽車遊戲也失守,人工智慧已經有能力在賽車遊戲中跑贏頂尖車手。

由Sony AI、Polyphony Digital和Sony Interactive Entertainment共同合作,所開發的人工智慧代理Gran Turismo Sophy(GT Sophy),在知名賽車遊戲跑車浪漫旅(Gran Turismo)遊戲中,打敗全世界最厲害的玩家賽車手,而Sony正探索將這個人工智慧代理整合到跑車浪漫旅系列作的方法,與玩家展開對決。

Sony AI研究人員在Nature期刊發表論文〈Outracing champion Gran Turismo drivers with deep reinforcement learning〉,應用深度強化學習技術,開發出超越跑車浪漫旅車冠軍手的人工智慧代理。這個研究以跑車浪漫旅系列作品,2017年Polyphony Digital於家用遊樂器PlayStation 4上所發布的Gran Turismo Sport(GT Sport)版本為基礎,該遊戲逼真重現真實世界的賽車環境,由於GT Sport採用了最新的車輛動力系統模擬,遊戲中賽車的效能幾乎與真實世界的賽車相同,對空氣阻力、輪胎摩擦,甚至懸吊系統移動所造成的方向改變都進行建模。

再加上擁有來自車廠的指導,GT Sport中賽車車身曲線、方向燈和大燈細節都與實體車型相同,精確地重現車輛細節。遊戲也設計了明確的規則和判斷標準,是一個與真實世界接近且公平的賽車遊戲。

Sony AI在這個接近現實賽車的遊戲中,開發賽車人工智慧代理,其所使用的增強學習是一種機器學習技術,訓練人工智慧代理在環境中,透過獎勵和懲罰學習所要採取的行動。Sony AI以增強學習為基礎,發展了一種更先進的訓練演算法,稱為QR-SAC(Quantile-Regression Soft Actor-Critic)。

深度增強學習技術早已被用來開發各種遊戲的人工智慧代理,研究人員提到,增強學習技術代理會考慮行為帶來的長期影響,並且可以在學習期間自己收集資料,免去人工編碼行為規則的繁瑣工作,因此很適合用來開發遊戲人工智慧代理,特別像是GT Sport這類複雜的遊戲。

QR-SAC演算法訓練人工智慧代理GT Sophy,成為一個技術高超,有謀略又有禮貌的賽車手,能夠掌握賽車控制、戰術還有禮儀技能。QR-SAC能夠推理出GT Sophy在高速行動下的結果,考慮到駕駛行為和後果,並在與不同類型的對手比賽時,考量複雜的可能性,GT Sophy能夠以高超的控制技巧,在一系列彎道組合,在未有接觸下貼著賽道牆面行駛。

GT Sophy雖然能夠自己收集資料,但訓練像是尾流超車(Slipstream Passing)這種特殊技巧,需要對手處與特定的位置。因此Sony AI還以混合情境訓練GT Sophy,除了手工製作每條賽道需要掌握的重點之外,也有協助代理人學習的專業陪練對手。

這些訓練使得GT Sophy獲得一些專業的賽車技術,包括處理賽車同時起步的擁擠情況,或是利用前車尾流彈射超車,甚至是防守動作。Sony AI特別展示了GT Sophy能夠精巧控制方向盤,在急轉彎中追趕前車。

除了有技巧之外,特別的是GT Sophy也具有賽車禮節,Sony AI研究人員找來書面和不成文的賽車規則,並且將其編碼成複雜的獎勵函式,使得GT Sophy不過於激進或是膽怯,能與人類展開具有競爭性的比賽。GT Sophy可以不阻擋其他車手,留給對手足夠機動空間的情況下超車。

Sony AI在自家開發的DART(Distributed, Asynchronous Rollouts and Training)訓練平臺訓練GT Sophy,DART平臺具有大量的CPU和GPU,能夠連接1,000多臺PlayStation 4,以收集訓練GT Sophy的資料集,同時DART還可管理代理運算資源和跨資料中心的GPU,研究團隊會在DART上同時進行數百個實驗,以探索提升GT Sophy效能的技術。

熱門新聞

Advertisement