為突破AI能力限制，臉書要教機器人在真實世界中自主學習

圖片來源:

臉書

臉書AI研究院正在透過教導機器人自主學習的計畫，來探索新技術，進而突破AI能力的限制，該計畫透過自我監督學習法，解決了一些機器人領域的挑戰，像是開發出能夠自由走動、探索周遭環境且操作物體的機器人，該機器人研究將能夠協助開發者，建立學習效率更高、更通用的AI系統。

臉書指出，要增進AI的能力，機器人提供了重要的機會，包含行走型的六足機器人、關節手臂機器人和搭載觸覺感測器的機器人手臂，因為教導機器在真實的世界中自主學習，可以幫助研究人員開發出在其他場景中，更具有能力和靈活性的AI系統。

與其他領域的AI研究相同，大部分的機器人研究也聚焦於自我監督（self-supervised learning）學習的方法，也就是使系統直接從原始資料學習，不需要透過針對特定任務結構化訓練資料來學習，因此自我監督系統更能勝任新任務和環境，為了建立通用的機器人系統，臉書改善了以模型為基礎的強化學習技術，讓機器人直接用感測器輸入的資料，透過嘗試錯誤法，自己學習應對真實世界的能力。

教導機器人如何自主學習走路

首先，為了突破機器獨立學習的能力，臉書開發一套以模型為基礎的強化學習方法，在不給機器人特定任務資訊或是訓練的情況下，使六足機器人學會走路，機器人一開始學習時，沒有任何環境或是物理的資訊，而是透過資料高效率（data-efficient）的強化學習演算法，使控制器學習如何實驗目標輸出，像是自我移動，在自我學習的過程中，當機器人產生資料時，模型會依據獎勵優化並改善其表現。

臉書表示，要學習如何行走是非常具有挑戰性的，因為機器人必須借助身上的感測器，從平衡、位置和空間導航中推理，但是因為感測器收集的資料有雜訊，使得計算工作變得有難度，而有時會發生錯誤，臉書的目標即是要減少機器人學習走路的互動次數，將學習時間從數天甚至數周，縮短成數小時內，該研究成果不僅能夠幫助機器人研究，還能改善其他強化學習的應用，像是A/B測試或是任務排程。

利用好奇心使機器人更有效率地學習

好奇心是人類學習的主要動力，臉書最近與紐約大學共同的研究中，將上述的概念，應用於改善機器人如何在現實世界中學習，具有好奇心的AI系統，會在探索和嘗試新事物時，以及在完成特定目標時，獲得獎勵，而過去類似的系統是用隨機的方式探索環境，臉書則是用結構化的方式，來找尋滿足機器人好奇心的方法，因而減少模型的不確定性，目前臉書已經將這項技術用在模擬和真實世界的機器人手臂系統中。

臉書的方法不同於其他好奇心驅動的機器人研究，臉書明確地優化不確定性的行動，為了在動態模型中針對探索不確定性的動作，給予較高的獎勵，臉書將模型預測的變數也納入獎勵評估的函數中，如此一來，機器人系統就能察覺模型的不確定性，並針對獎勵最大化和減少模型不確定性，進行動作序列優化，使得機器人更能夠處理新任務和情況，透過該方法，機器人系統能夠產生許多多元的新資料，且學習速度也會提升，在一些案例中，只需要數十次的迭代就能完成學習，不需要經過數百或是數千次。

不只視覺，機器人還要借助觸覺感測器學習

大多數的機器人主要都仰賴電腦視覺技術，但是觸覺也是一項重要又複雜的研究領域，在操作物體的任務中，若物體在視覺上被遮蔽，機器人就能透過觸覺感測器來完成該任務，臉書與加州大學柏克萊分校合作，開發一套從觸覺完成目標的自我監督學習法，且沒有透過特定任務的訓練資料，臉書利用影片預測模型來優化控制策略模型，該預測模型不需要獎勵機制，而是利用系統探索環境的多種互動，實驗結果顯示，機器人能夠完成一系列複雜的觸覺任務，包含滾球、移動操作桿，以及在20面的骰子中辨識出正確的面。

熱門新聞