臉書最新開發的大規模分散式增強學習演算法DD-PPO,可在沒有預先提供地圖給人工智慧代理人的情況下,代理人依然能在虛擬環境中,只使用RGB-D攝影機、GPS和指南針,聰明地導航並抵達目的地,成功率達99.9%。

臉書提到,現實世界不停發生變化,無論是建築物或是結構發生改變,還是物體不斷地變更位置,人和寵物也會來來去去,地圖一旦建立之後便過時了。而要讓人工智慧可以有效的與現實世界互動,便要學會不仰賴地圖,也可以在陌生環境中導航。而臉書最新的DD-PPO演算法,僅需要使用RGB-D攝影機、GPS和指南針資料,就能有效地解決指定目標點的導航問題。

過去的系統成功率雖然達到92%,但臉書表示,在現實世界中,即便100次任務只失敗一次,也是無法被接受的,因為機器人可能會因出錯,破壞周圍環境或是讓自己受損,而DD-PPO訓練的代理,能以高達99.9%的成功率到達指定的地點,且會選擇最佳路徑,從起點前往目的地,路徑與最佳路徑平均誤差在3%以下,代理人不會在路口轉錯彎,或是走進死路,甚至不會離開最佳路徑進行探索。

臉書使用AI Habitat平臺來訓練和評估DD-PPO,AI Habitat是一個具有模組化框架的模擬器,可以用來模擬數十億步的走路訓練,Habitat以每秒1萬影格的速度執行,同時還能處理多種資料集,臉書提到,這是目前最真實的人工智慧研究虛擬環境。

模擬定點導航的初始,代理人會以隨機方向出現在新環境中的隨機位置,並被要求前往相對於代理人的指定座標,沒有任何可用的地圖,代理人需要使用GPS和指南針等感測器,以及RGB-D攝影機自己進行導航。臉書使用DD-PPO訓練代理走了25億步,約是人類80年的經驗,臉書使用64個GPU在3天內完成訓練。

臉書提到,在10億步之前的訓練,模型效能不會達到飽和,一億步的訓練可達到90%的效能,因此之前的研究還差最新研究1到2個數量級,而具有數十億步的經驗,可達99.9%的成功率,是目前最先進的技術,也從根本上解決了這個問題。臉書希望未來可僅使用RGB攝影機,就能完成定點導航的工作。

熱門新聞

Advertisement