Google新的機器人研究,訓練了一個稱為BC-Z的系統,讓機器人可以在經過一連串訓練後,具有解決陌生任務的能力。研究人員以100種任務來訓練BC-Z系統,並且使用28種未出現在訓練中的新任務來考驗BC-Z,結果BC-Z能夠成功完成其中24個任務,研究人員認為簡單的模仿學習,就可使機器人具泛化能力,零樣本解決新任務。

研究人員提到,要實際應用在真實世界的機器人,難免需要解決新的用戶指令,或是處理訓練過程沒有看過的狀況,因此機器人除了要能夠在各種情況下執行多項任務外,還要能夠根據人類用戶的要求解決新任務,即便機器人過去沒有針對這些任務,進行明確的訓練。

要機器人完成全新的任務指令,目前這方面的研究進展仍很少,研究人員表示,這類問題很困難,因為機器人除了需要理解新指令,還必須要在沒有任何訓練資料的情況下完成任務,而且當機器人需要同時泛化多個軸向的問題時,像是要在不同的場景以及物體位置執行任務,情況變得更加複雜。

Google研究人員為此開發了BC-Z系統,期望讓機器人能泛化解決未經訓練的任務,該系統具有兩個重要的部分,分別是涵蓋100種任務的大規模示範資料集,另外則是以語言和影片作為任務指令條件的神經網路政策。

要機器人泛化解決一項新任務,比保留部分訓練任務的泛化困難的多,研究人員提到,他們希望機器人具有更多的泛化能力,而這需要使用不同且大量的資料進行訓練。人工操作員透過虛擬實境頭戴裝置,遠端操作機器人收集資料,操作員紀錄每個任務的完整示範,接著一旦機器人學習了初始政策,便會在監督下部署該策略,當機器人犯錯或是卡住,操作員則進行干預,並且示範一次正確的操作。操作員使用這個方法,總共收集了100種任務。

這種結合示範和干預的訓練範例收集方式,在實驗中證明,能有效減少錯誤提高效能,與只仰賴人工範例的方法相比,這種新的資料收集策略能獲得2倍效能。

在收集完所有100種任務後,研究人員使用這些資料訓練神經網路政策,以便將相機圖像的朝向和方向,對應至機器人手臂和爪子,而且因為要讓這些政策能夠解決100個訓練任務以外的新任務,研究人員還對各任務輸入描述,包括語言命令的形式,以及人工操作任務的影片。

藉由在100個任務中訓練政策,並根據描述調整政策,研究人員成功讓BC-Z系統能夠解釋和完成新指令。研究人員提到,語言模型能夠翻譯拿起杯子和推碗這兩個動作,該模型也應該能正確翻譯推杯子,而且語言編碼器的組合泛化能力,也能夠轉移解決機器人的問題。

即便在訓練中,只有機器手臂拿起葡萄做其他事,以及將其他物體放進紅色碗中兩種任務,而且在過程,葡萄也未曾和紅色碗出現在同一個場景中,但在解決新任務實驗中,機器人可以正確地將葡萄放進紅色碗裡(下圖)。

研究人員強調,神經網路需要正確解釋指令,並在視覺上辨識該指令相關的物體,還要忽略場景中的其他雜訊,將解釋後的指令和感知,轉化為機器人動作空間,這個過程非常困難。但機器人在經過100個範例任務訓練後,能夠成功完成研究人員所設定的28個新任務中的24個,成果比研究人員預期的還要好,並且證明了自然語言模型,不僅可以提供機器人靈活的輸入介面,預訓練的語言表示,還可以給予下游政策新的泛化能力,將不曾見過的物體組合在一起。


熱門新聞

Advertisement