DeepMind運用大型基礎模型自動控制機器人

DeepMind揭露一系列機器人研究的最新進展，在Robotics Transformers（RT）基礎上發展AutoRT、SARA-RT和RT-Trajectory系統，讓機器人可以更快地做決策，並且能理解世界，在環境中順利導航。

機器人能接受「整理房子」、「烹調一頓美味健康的飯菜」等人類口語指令，就完成工作，需要對世界有高度的了解。依據機器人所需要具備的能力，DeepMind開發多項重要系統，首先是結合大型基礎模型的AutoRT。AutoRT將大型語言模型和視覺語言模型等大型基礎模型，與機器人控制模型RT-1或RT-2結合，創建一個可以在新環境中部署機器人，並收集訓練資料的系統。

也就是說，AutoRT藉由運用大型基礎模型所提供的語言和視覺處理能力，結合機器人控制技術，使機器人能夠自動進入並適應未知環境，進一步收集對學習和功能改進有用的資料。

AutoRT能夠同時指揮多個機器人，每個機器人都搭載攝影機和末端執行器（End Effector），在一系列配置中執行不同的任務。對於每個機器人，系統會使用視覺語言模型來了解環境和視線中的物體，而大型語言模型則會建議機器人執行具創造性的任務，像是將零食放回臺面，其扮演決策者的角色，替機器人選擇合適的任務來執行。

AutoRT系統經過7個月的實驗，可同時控制不同大樓中的20多個機器人，共可控制超過52種獨特機器人，已收集包括6,650個獨特任務的77,000次機器人試驗等多樣化資料。而雖然AutoRT是一個資料收集系統，但也是現實世界中自動機器人的展示，研究人員也為其設計安全護欄，參考作家Isaac Asimov在其機器人相關小說中設定的機器人三定律，最重要的第一條定律不得傷害人類，並進一步延伸限制機器人不得執行涉及人類、動物、尖銳物品和電器等相關任務。

雖然有這道規則，但研究人員仍擔心無法保證機器人安全性，因此AutoRT還實施多道安全措施，像是協作機器人的關節受力在超過閾值時會自動停止，並且所有活動機器人都受人類監控，人類可以隨時按下物理開關停止機器人。

此外，DeepMind研究人員也開發了一個新系統SARA-RT，可將Robotics Transformers模型轉換成為更為高效的版本。研究人員將其應用在最新的機器人控制系統RT-2，在看過簡短的影像歷史紀錄之後，SARA-RT-2模型的準確度比RT-2提升10.6％，速度更是快上14％。而這也是第一個可擴展的注意力機制，可以在不損失品質的情況下改進運算效率。

研究人員解釋，傳統Transformers架構主要的限制，在於其運算需求高，因此會減慢機器人的決策過程。SARA-RT透過一種稱為向上訓練（Up-training）的模型微調方法，使模型更有效率，將注意力模型的平方複雜度降為線性複雜度，大幅降低運算要求，不僅提高原始模型的速度，還保留其品質。

DeepMind第3種機器人創新技術則是RT-Trajectory，RT-Trajectory為一種機器人訓練模型，可以透過在訓練影片中自動加入機器人動作的視覺輪廓，來提高機器人的任務理解和執行能力，RT-Trajectory將機器人手臂的夾持器動作，轉化成為二維軌跡草圖，以RGB圖像形式展示，替機器人提供實際的動作提示，進而改善其學習和控制策略。

在未曾出現於訓練資料中的41項任務進行測試，RT-Trajectory控制的機器人手臂表現，較最先進的模型提高超過一倍，達到63％的任務成功率，相較之下，RT-2模型僅為29％。這個成果顯示RT-Trajectory在提高機器人對新任務的適應性和效率上有極大的潛力，而且RT-Trajectory也可根據人類的示範或是手繪草圖創建動作軌跡，並適用於多種機器人平臺上。

DeepMind將會綜合運用AutoRT、SARA-RT和RT-Trajectory新技術，創建更加能幹有用的機器人。

熱門新聞