Google讓機器人抓握技巧更像人，在雜亂中抓取目標前還會先撈一撈

抓握物體對人類來說是很簡單的工作，要教會機器人卻相當不容易，Google先是發表不需要人工設定軌跡，就能抓取特定物體的研究，現在還要讓機器人行為更像人，可以讓機器人從一大群雜亂的物體中，像人一樣撈出目標物，或是推開阻礙抓取目標的物體，再進行抓取物體。透過稱為QT-Opt的演算法，可以使用較少的訓練資料就能達到更好的成效，由於真實的機器人資料難以收集，因此這對於機器人學習是很令人振奮的事。

目前機器人系統都只能在生產線上建置產品，這類受控環境中執行重複性任務的工作。而要機器人觀察周圍環境並決定出最佳行動方案，同時對於意想不到的結果做出反應，Google提到，要教機器人這種概括不同現實世界物體和情境的能力非常困難。

目前有兩種工具可以提供機器人類似的能力，第一種是深度學習，可以處理非結構化現實場景，另一種則是增強學習，讓機器人擁有更長期的推理，並展現強大的順序決策能力。Google表示，結合這兩項技術可以讓機器人自行從經驗中不斷的學習，而不需要手動工程控制機器人的基本運動。但即便有了這個方向，前進的路途仍然充滿挑戰，真實世界物體具有各種不同的外觀以及物理特性，即便是接觸力細微的不同，都會讓預測物體移動變的困難，甚至可能造成視覺上的阻擋。此外，機器人感測器的資料雜訊很多，同時也增加了資料應用的複雜度。

這些原因使得要發展出一個通用型的解決方案變得不容易，除非有足夠的時間收集多樣的訓練資料，但由於收集機器人的訓練資料非常困難，促使了研究團隊往開發更強大的學習演算法前進，最好能夠重複使用過去的經驗，直接從大型資料集中獲得必要的資源。但是這些還不夠，機器人還需要能推斷行為帶來的長期後果，這對於掌握技能至關重要，

Google為此使用了新政策（Off-policy）增強學習，這個設計能讓學習演算法從大量過去多元的互動中，獲取有用的經驗，Google使用擬合深度Q-learning演算法結合大規模分散式最佳化，發展出稱為QT-Opt的演算法，這個分散式學習演算法支援連續動作空間，非常適合用來解決機器人的問題。

Google使用收集來的資料，在不需要實際控制機器人的情況下離線訓練模型，模型訓練完成後再部署到真實機器人上進行微調，而在執行QT-Opt演算法的同時，也能累積更多可用於訓練模型的離線資料。為了將這個演算法用於機器人抓握，Google以7個真實機器人，在4個月內運行800小時，而且為了加速資料收集，他們先使用人工設計的政策，在15-30％的運行時間都能成功執行任務後，再將資料收集切換到訓練模式。該政策是拍照並回傳機械手臂的動作，離線資料包含抓取一千種不同物體的資訊。

由於跨機器人的抓取經驗可以互相分享，7個機器人共享58萬次的大型抓握資料集，最後研究團隊獲得了一個真實世界機器人的抓握政策，從數量上來看，QT-Opt演算法在沒看過的物體進行700次的抓握，達96％的成功率，比先前監督學習抓握法的成功率78％，錯誤率下降了5倍。

當一群物體組成一個閉鎖環狀時，機器人自動發展出在撿取特定物體之前，先推開其他物體，再進行抓取。另外，當機器人第一次嘗試抓取物體失敗時，會改變方向重新定位後，再次進行抓取直到成功。當機器人要從一大群物體中抓取特定物體時，會先在物體中撈一撈，直到可以抓住目標為止。而且當人們故意將機器人抓住的物體拍落時，機器人也會自動重新定位後，再次撿起物體。

而這些類似人類操作物體的行為都不是人工設計的，而是系統以QT-Opt自我監督訓練下學習的。Google還提到，QT-Opt能夠使用更少的訓練資料，達到更好的訓練成效，這對於訓練瓶頸通常在於收集訓練資料的機器人研究，是一件令人興奮的發現。而QT-Opt是一種通用的增強學習方法，用途並不僅限於機器人抓握，未來他們還會繼續使用在其他機器人研究上。

熱門新聞