Google訓練機器人具有解決未知新任務的能力

Google新的機器人研究，訓練了一個稱為BC-Z的系統，讓機器人可以在經過一連串訓練後，具有解決陌生任務的能力。研究人員以100種任務來訓練BC-Z系統，並且使用28種未出現在訓練中的新任務來考驗BC-Z，結果BC-Z能夠成功完成其中24個任務，研究人員認為簡單的模仿學習，就可使機器人具泛化能力，零樣本解決新任務。

研究人員提到，要實際應用在真實世界的機器人，難免需要解決新的用戶指令，或是處理訓練過程沒有看過的狀況，因此機器人除了要能夠在各種情況下執行多項任務外，還要能夠根據人類用戶的要求解決新任務，即便機器人過去沒有針對這些任務，進行明確的訓練。

要機器人完成全新的任務指令，目前這方面的研究進展仍很少，研究人員表示，這類問題很困難，因為機器人除了需要理解新指令，還必須要在沒有任何訓練資料的情況下完成任務，而且當機器人需要同時泛化多個軸向的問題時，像是要在不同的場景以及物體位置執行任務，情況變得更加複雜。

Google研究人員為此開發了BC-Z系統，期望讓機器人能泛化解決未經訓練的任務，該系統具有兩個重要的部分，分別是涵蓋100種任務的大規模示範資料集，另外則是以語言和影片作為任務指令條件的神經網路政策。

要機器人泛化解決一項新任務，比保留部分訓練任務的泛化困難的多，研究人員提到，他們希望機器人具有更多的泛化能力，而這需要使用不同且大量的資料進行訓練。人工操作員透過虛擬實境頭戴裝置，遠端操作機器人收集資料，操作員紀錄每個任務的完整示範，接著一旦機器人學習了初始政策，便會在監督下部署該策略，當機器人犯錯或是卡住，操作員則進行干預，並且示範一次正確的操作。操作員使用這個方法，總共收集了100種任務。

這種結合示範和干預的訓練範例收集方式，在實驗中證明，能有效減少錯誤提高效能，與只仰賴人工範例的方法相比，這種新的資料收集策略能獲得2倍效能。

在收集完所有100種任務後，研究人員使用這些資料訓練神經網路政策，以便將相機圖像的朝向和方向，對應至機器人手臂和爪子，而且因為要讓這些政策能夠解決100個訓練任務以外的新任務，研究人員還對各任務輸入描述，包括語言命令的形式，以及人工操作任務的影片。

藉由在100個任務中訓練政策，並根據描述調整政策，研究人員成功讓BC-Z系統能夠解釋和完成新指令。研究人員提到，語言模型能夠翻譯拿起杯子和推碗這兩個動作，該模型也應該能正確翻譯推杯子，而且語言編碼器的組合泛化能力，也能夠轉移解決機器人的問題。

即便在訓練中，只有機器手臂拿起葡萄做其他事，以及將其他物體放進紅色碗中兩種任務，而且在過程，葡萄也未曾和紅色碗出現在同一個場景中，但在解決新任務實驗中，機器人可以正確地將葡萄放進紅色碗裡（下圖）。

研究人員強調，神經網路需要正確解釋指令，並在視覺上辨識該指令相關的物體，還要忽略場景中的其他雜訊，將解釋後的指令和感知，轉化為機器人動作空間，這個過程非常困難。但機器人在經過100個範例任務訓練後，能夠成功完成研究人員所設定的28個新任務中的24個，成果比研究人員預期的還要好，並且證明了自然語言模型，不僅可以提供機器人靈活的輸入介面，預訓練的語言表示，還可以給予下游政策新的泛化能力，將不曾見過的物體組合在一起。

熱門新聞