Google為Alphabet幫手型機器人強化語言理解能力

為了讓Alphabet的事務幫手型機器人更能理解使用者的指令，Google開發新的AI模型PaLM-SayCan，加入任務對應性（即技能語言描述），及和真實世界的對應性（即技能可行性）兩種機率來決定完成指令的成功率，協助機器人決定和評估有用的行動。（圖片來源／Google）

Google本周宣布新的機器人AI模型PaLM-SayCan，讓Alphabet開發的事務幫手型（helper）機器人更能理解使用者的指令，並且更聰明執行任務。

Alphabet X於2019年11月公布通用型學習機器人專案Everyday Robot Project，旨在開發日常任務用機器人，可執行倒垃圾、擦桌子、整理家具、長遠目標是能幫助獨居長者自理家務等高階任務。去年Alphabet 也展示Every Robot已在公司內員工餐廳擦桌子、或在辦公室整理會議室。

圖片來源／Google

Google指出，過去幾年公司雖然在應用機器學習技術於機器人有一些進展，但到目前為止，這類機器人仍僅能執行硬編寫的短指令，像是「拿起一顆蘋果」，在簡單明白、且回饋快速的任務上效果比較好。但它們不太能執行長串指令，或理解抽象目標，像是「我剛運動完，你能幫我準備健康的點心嗎？」

Google同時說明，早前訓練語言模型的方法，由於語言模型並不和實體世界互動，也未觀察其反應造成的結果，因此現行模型如GPT-3可能會出現令人啼笑皆非的回應，像是如果用戶表示「我飲料灑出來了，你能幫忙嗎？」他會給出「你可以試試吸塵器」等不安全、不實用的「建議」，而FLAN模型的反應則是「對不起，我不是有意灑出來的。」

而Google則發展出名為PaLM-SayCan的模型。其名稱來自它利用語言模型的知識（理解用戶說話的動機，即Say）來決定和評估有用的行動。這個作法也利用「可供性」（affordance）功能做選擇在其周遭環境條件下可行的作法（Can）。

SayCan和機器人的關係是，機器人提供PaLM-SayCan語言模型的手和眼睛，而語言模型則提供任務的高階語義知識。系統執行過程好比是由語言模型推動的人、機對話過程。一開始用戶發出指令，語言模型將之轉化成一系列機器人執行的步驟。這個步驟序列是由機器人技能過濾，並依據當時環境條件決定最高可行性的計畫。此外，本模型也加入任務對應性（即技能語言描述），及和真實世界的對應性（即技能可行性）兩種機率來決定完成指令的成功率。

因此在用戶說出打翻飲料時，PaLM-SayCan可以做出機率計算後，在尋找吸塵器、找海綿、找垃圾筒、撿起蘋果等行為選項中，最後選擇拿來一塊海綿。

圖片來源／Google

Google也公開了機器人模擬設定的技術資源和文件，供有興趣的團隊測試這個PaLM-SayCan模型。

熱門新聞