Google提出了簡單且高效能的演算法Grasp2Vec,讓機器人從自我監督式抓握中,學習物體表示的方法,在不需要人類標記資料的情況下,學習物體辨識。

人類從小時候就具備將物體撿起的能力,即便沒有被明確的教導過該怎麼做。而在認知發展研究中認為,與物體互動的能力,在物體感知和操縱能力中扮演重要角色。人類可以透過與周遭物體互動,知道該怎麼抓取並從結果中自我學習。

而對於機器人來說,自我學習可讓系統在不需要許多訓練資料或是手動監督下進行學習。Google受物體恆存(Object Permanence)的概念啟發,發展出了Grasp2Vec,這是一種用於獲取物體表示的高效能演算法。Grasp2Vec的運作基於一系列的事實,包括機器人要抓住物體並將其舉起,該物體勢必存在於場景中,另外,機器人知道抓住的物體,存在於當前抓取器中,因此會在場景中消失。透過這種形式的自我監督學習,機器人可以在抓取物體後的場景視覺變化學習辨識物體。

基於Google與X Robotics先前的合作成果,Google使用機器手臂隨意地抓取物體,而該經驗將啟動物體豐富表示方法的學習,而該表示方法將能被用來訓練有意圖的抓取能力,執行人類要求撿起物體的命令。

在增強學習的框架中任務成功與否,是以獲得的獎勵來衡量,而在Google的這項機器手臂抓取實驗中,設計獎勵是一個困難的挑戰,Google提到,在實際抓取任務中,研究人員向機器人展示預期抓握物體的照片,而機器人試圖抓取該物體後,便會檢查手臂中的物體內容。而這個任務的獎勵則轉變成了物體辨識問題,判別抓取的物體與照片是否相符。

而為了解決這個辨識問題,Google需要開發出特別的感知系統,該系統能從非結構化的圖像資料,在沒有任何人類標記的情況下,萃取有意義的物體概念,以非監督的方式學習物體的視覺感知。Google讓系統收集機器手臂操作物體的資料,透過抓取物體,將其從場景中移除,來取得需要的圖像資料,這個過程會產生三種圖像,第一是抓取物體前的場景圖,第二則是抓取物體後的場景圖,最後則是抓取物體本身的單獨圖片。

這三張圖的關係是,抓取前場景的圖減去抓取後場景的圖,所剩下的物體應等於抓取物體本身。Google使用完全卷積架構和簡單的測量學習演算法(Metric Learning Algorithm)來計算以上的等式關係。在經過訓練後,模型會產生兩個有用的屬性,分別是物體相似性以及本地化目標物體。

物體相似性是向量嵌入間的距離,可以用來比較物體並確定這些物體是否相同,以實現增強學習的獎勵機制,並允許機器人在沒有人工標籤的情況下,學習實體抓取。本地化目標物體屬性則可以組合場景映射和物體嵌入,在本地化圖像空間中查詢物體,透過獲取空間元素圖的元素乘積,以及與查詢物體相符的向量,能夠找到空間映射與查詢物體相符的所有像素。

在本地化圖像空間中查詢物體後,所得到的熱區圖,可以用來規畫機器人接近物體的方法,研究人員將Grasp2Vec本地化和實體辨識功能,與任意抓取政策結合,在機器人抓取物體並資料收集過程,辨識出物體的成功率達80%,而辨識新物體的成功率也有59%。

這個研究展示了機器人抓取技能產生的資料,可被應用於學習物體中心的表示法,而該表示法有助機器人學習更多複雜的行為,並且仍可以保留自動抓取系統的自我監督學習屬性。

 

 

 


Advertisement

更多 iThome相關內容