不用地圖，臉書最新AI代理人室內自動導航成功率達99.9％

臉書最新開發的大規模分散式增強學習演算法DD-PPO，可在沒有預先提供地圖給人工智慧代理人的情況下，代理人依然能在虛擬環境中，只使用RGB-D攝影機、GPS和指南針，聰明地導航並抵達目的地，成功率達99.9％。

臉書提到，現實世界不停發生變化，無論是建築物或是結構發生改變，還是物體不斷地變更位置，人和寵物也會來來去去，地圖一旦建立之後便過時了。而要讓人工智慧可以有效的與現實世界互動，便要學會不仰賴地圖，也可以在陌生環境中導航。而臉書最新的DD-PPO演算法，僅需要使用RGB-D攝影機、GPS和指南針資料，就能有效地解決指定目標點的導航問題。

過去的系統成功率雖然達到92%，但臉書表示，在現實世界中，即便100次任務只失敗一次，也是無法被接受的，因為機器人可能會因出錯，破壞周圍環境或是讓自己受損，而DD-PPO訓練的代理，能以高達99.9％的成功率到達指定的地點，且會選擇最佳路徑，從起點前往目的地，路徑與最佳路徑平均誤差在3％以下，代理人不會在路口轉錯彎，或是走進死路，甚至不會離開最佳路徑進行探索。

臉書使用AI Habitat平臺來訓練和評估DD-PPO，AI Habitat是一個具有模組化框架的模擬器，可以用來模擬數十億步的走路訓練，Habitat以每秒1萬影格的速度執行，同時還能處理多種資料集，臉書提到，這是目前最真實的人工智慧研究虛擬環境。

模擬定點導航的初始，代理人會以隨機方向出現在新環境中的隨機位置，並被要求前往相對於代理人的指定座標，沒有任何可用的地圖，代理人需要使用GPS和指南針等感測器，以及RGB-D攝影機自己進行導航。臉書使用DD-PPO訓練代理走了25億步，約是人類80年的經驗，臉書使用64個GPU在3天內完成訓練。

臉書提到，在10億步之前的訓練，模型效能不會達到飽和，一億步的訓練可達到90％的效能，因此之前的研究還差最新研究1到2個數量級，而具有數十億步的經驗，可達99.9％的成功率，是目前最先進的技術，也從根本上解決了這個問題。臉書希望未來可僅使用RGB攝影機，就能完成定點導航的工作。

熱門新聞