圖片來源: 

臉書

臉書AI研究院正在透過教導機器人自主學習的計畫,來探索新技術,進而突破AI能力的限制,該計畫透過自我監督學習法,解決了一些機器人領域的挑戰,像是開發出能夠自由走動、探索周遭環境且操作物體的機器人,該機器人研究將能夠協助開發者,建立學習效率更高、更通用的AI系統。

臉書指出,要增進AI的能力,機器人提供了重要的機會,包含行走型的六足機器人、關節手臂機器人和搭載觸覺感測器的機器人手臂,因為教導機器在真實的世界中自主學習,可以幫助研究人員開發出在其他場景中,更具有能力和靈活性的AI系統。

與其他領域的AI研究相同,大部分的機器人研究也聚焦於自我監督(self-supervised learning)學習的方法,也就是使系統直接從原始資料學習,不需要透過針對特定任務結構化訓練資料來學習,因此自我監督系統更能勝任新任務和環境,為了建立通用的機器人系統,臉書改善了以模型為基礎的強化學習技術,讓機器人直接用感測器輸入的資料,透過嘗試錯誤法,自己學習應對真實世界的能力。

教導機器人如何自主學習走路

首先,為了突破機器獨立學習的能力,臉書開發一套以模型為基礎的強化學習方法,在不給機器人特定任務資訊或是訓練的情況下,使六足機器人學會走路,機器人一開始學習時,沒有任何環境或是物理的資訊,而是透過資料高效率(data-efficient)的強化學習演算法,使控制器學習如何實驗目標輸出,像是自我移動,在自我學習的過程中,當機器人產生資料時,模型會依據獎勵優化並改善其表現。

臉書表示,要學習如何行走是非常具有挑戰性的,因為機器人必須借助身上的感測器,從平衡、位置和空間導航中推理,但是因為感測器收集的資料有雜訊,使得計算工作變得有難度,而有時會發生錯誤,臉書的目標即是要減少機器人學習走路的互動次數,將學習時間從數天甚至數周,縮短成數小時內,該研究成果不僅能夠幫助機器人研究,還能改善其他強化學習的應用,像是A/B測試或是任務排程。

利用好奇心使機器人更有效率地學習

好奇心是人類學習的主要動力,臉書最近與紐約大學共同的研究中,將上述的概念,應用於改善機器人如何在現實世界中學習,具有好奇心的AI系統,會在探索和嘗試新事物時,以及在完成特定目標時,獲得獎勵,而過去類似的系統是用隨機的方式探索環境,臉書則是用結構化的方式,來找尋滿足機器人好奇心的方法,因而減少模型的不確定性,目前臉書已經將這項技術用在模擬和真實世界的機器人手臂系統中。

臉書的方法不同於其他好奇心驅動的機器人研究,臉書明確地優化不確定性的行動,為了在動態模型中針對探索不確定性的動作,給予較高的獎勵,臉書將模型預測的變數也納入獎勵評估的函數中,如此一來,機器人系統就能察覺模型的不確定性,並針對獎勵最大化和減少模型不確定性,進行動作序列優化,使得機器人更能夠處理新任務和情況,透過該方法,機器人系統能夠產生許多多元的新資料,且學習速度也會提升,在一些案例中,只需要數十次的迭代就能完成學習,不需要經過數百或是數千次。

不只視覺,機器人還要借助觸覺感測器學習

大多數的機器人主要都仰賴電腦視覺技術,但是觸覺也是一項重要又複雜的研究領域,在操作物體的任務中,若物體在視覺上被遮蔽,機器人就能透過觸覺感測器來完成該任務,臉書與加州大學柏克萊分校合作,開發一套從觸覺完成目標的自我監督學習法,且沒有透過特定任務的訓練資料,臉書利用影片預測模型來優化控制策略模型,該預測模型不需要獎勵機制,而是利用系統探索環境的多種互動,實驗結果顯示,機器人能夠完成一系列複雜的觸覺任務,包含滾球、移動操作桿,以及在20面的骰子中辨識出正確的面。


Advertisement

更多 iThome相關內容