DeepMind訓練AI踢足球

圖片來源:

DeepMind

在2016的圍棋人機大戰後，Google姐妹公司DeepMind科學家開發的新AI系統，可學習人類動作，學習成為一組虛擬足球隊。

DeepMind在科學期刊《Science Robotics》公布一篇論文，披露該公司的NPMP（neural probabilistic motor primitive）模型如何從人或動物動作中學習複雜技能，並以代理程式或實體機器人，將技能體現出來，像是踢足球。

DeepMind科學家指出，足球向來是體現智慧（embodied intelligence）研究的一大挑戰，因為足球是結合個人技能及團隊合作的運動。DeepMind使用NPMP模型為基礎引導學習足球的動作技能。

NPMP（neural probabilistic motor primitive，NPMP）是一組通用運動控制AI模型，能將立即的運動意圖轉化為低階控制訊號。NPMP是在離線環境下訓練，或是模仿感測器蒐集到人或動物的資料（稱為運動捕捉motion capture/MoCap資料），透過增強式學習（reinforcement learning）訓練。

圖片來源／DeepMind

這個模型包含兩部份，一是編碼器（encoder），其功用是把未來動作軌跡壓縮進運動意圖。第二個部份為低階控制器。低階控制器能依代理程式目前狀態及現有運動意圖，產生下個動作。

低階控制器能被包成一個可插拔式的運動控制模組，可重覆利用以便學習新技能，並由經過最佳化的高階控制器直接輸出運動的意圖。DeepMind指出，這可以讓探索過程更有效率，並限縮最後的解決方案。

利用NPMP，DeepMind的「球員」（即代理程式）從學習追球的技能開始逐漸學會如何合作。DeepMind過去一項專案中，兩組互相競爭的團隊出現合作行為。在最新專案中，NPMP也出現同樣行為，不同的是，這個情境需要更高階的運動控制能力。

DeepMind的代理程式學到的技能包括靈敏的移動、傳球及分工合作。「球員」們展現出靈敏的高頻運動控制，及摻雜預期隊友行為的長期決策，形成足球的團體戰。

AI模型學習以手臂和物件互動是另一個控制挑戰。研究團隊以少量搬箱子的動作捕捉資料，包括第一人視角及少數回饋訊號，即可訓練NPMP的代理程式將一個箱子由一地搬到另一地。另外也能訓練代理程式接、拋球、或是執行在迷宮中蒐集目標物的任務。

這個NPMP模型還能用來控制真正的機器人。DeepMind利用人類及狗的動作捕捉資料訓練NPMP技能及控制器，然後分別部署到真正的人形機器人（OP3）及四腳機器人（ANYmal B），這讓使用者可以透過控制桿控制機器人，或者以自然動作將球運到目的地。他們證實，NPMP可以既有生物動作資料為基礎訓練，學習高度規律化、自然及可重覆使用的動作技能，再由真正的機器人體現出來。

熱門新聞