圖片來源: 

DeepMind

在2016的圍棋人機大戰後,Google姐妹公司DeepMind科學家開發的新AI系統,可學習人類動作,學習成為一組虛擬足球隊。

DeepMind在科學期刊《Science Robotics》公布一篇論文,披露該公司的NPMP(neural probabilistic motor primitive)模型如何從人或動物動作中學習複雜技能,並以代理程式或實體機器人,將技能體現出來,像是踢足球。

DeepMind科學家指出,足球向來是體現智慧(embodied intelligence)研究的一大挑戰,因為足球是結合個人技能及團隊合作的運動。DeepMind使用NPMP模型為基礎引導學習足球的動作技能。

NPMP(neural probabilistic motor primitive,NPMP)是一組通用運動控制AI模型,能將立即的運動意圖轉化為低階控制訊號。NPMP是在離線環境下訓練,或是模仿感測器蒐集到人或動物的資料(稱為運動捕捉motion capture/MoCap資料),透過增強式學習(reinforcement learning)訓練。

圖片來源/DeepMind

這個模型包含兩部份,一是編碼器(encoder),其功用是把未來動作軌跡壓縮進運動意圖。第二個部份為低階控制器。低階控制器能依代理程式目前狀態及現有運動意圖,產生下個動作。

低階控制器能被包成一個可插拔式的運動控制模組,可重覆利用以便學習新技能,並由經過最佳化的高階控制器直接輸出運動的意圖。DeepMind指出,這可以讓探索過程更有效率,並限縮最後的解決方案。

利用NPMP,DeepMind的「球員」(即代理程式)從學習追球的技能開始逐漸學會如何合作。DeepMind過去一項專案中,兩組互相競爭的團隊出現合作行為。在最新專案中,NPMP也出現同樣行為,不同的是,這個情境需要更高階的運動控制能力。

DeepMind的代理程式學到的技能包括靈敏的移動、傳球及分工合作。「球員」們展現出靈敏的高頻運動控制,及摻雜預期隊友行為的長期決策,形成足球的團體戰。

AI模型學習以手臂和物件互動是另一個控制挑戰。研究團隊以少量搬箱子的動作捕捉資料,包括第一人視角及少數回饋訊號,即可訓練NPMP的代理程式將一個箱子由一地搬到另一地。另外也能訓練代理程式接、拋球、或是執行在迷宮中蒐集目標物的任務。

這個NPMP模型還能用來控制真正的機器人。DeepMind利用人類及狗的動作捕捉資料訓練NPMP技能及控制器,然後分別部署到真正的人形機器人(OP3)及四腳機器人(ANYmal B),這讓使用者可以透過控制桿控制機器人,或者以自然動作將球運到目的地。他們證實,NPMP可以既有生物動作資料為基礎訓練,學習高度規律化、自然及可重覆使用的動作技能,再由真正的機器人體現出來。

熱門新聞

Advertisement