Google大腦、英特爾和柏克萊以影片訓練機器人動手術

Google大腦、英特爾和柏克萊大學合作開發了一種稱為Motion2Vec的演算法，讓機器人透過觀看影片，學習執行外科手術的相關任務，完成包括縫合、穿針以及打結等動作，研究人員將其實際應用在雙臂達文西外科手術系統，在實驗室中成功讓針穿過布料。

研究人員提到，在嵌入空間（Embedding Space）學習有意義的視覺表示，可以促進發展動作分割和模仿等任務。最新的Motion2Vec演算法，透過最小化孿生神經網路度量學習（Metric Learning）損失，從影片中學習深度嵌入特徵空間，研究人員表示，演算法在學習時，會講究圖像的排序，將同一動作片段的圖像匯集在一起。

Motion2Vec是一種半監督式學習演算法，其命名規則類似Word2Vec和Grasp2Vec等模型，都是從影片中學習動作，在孿生神經網路中，將相似動作分割和度量學習結合在一起，習得一個深度嵌入特徵空間。柏克萊大學之前就曾使用YouTube影片來訓練人工智慧跳舞、後空翻和各種雜耍，而Google也有相關研究，是使用影片教四足機器人學習狗的靈活動作。

研究人員提到，透過專家示範的影片，可以訓練機器人操作技能，以改進用於手術的機器人，實驗結果顯示，Motion2Vec的表現比目前最先進的方法都還要好。Motion2Vec從JIGSAWS資料集的公開影片中模仿手術縫合動作，達到了平均85.5％的分割精準度，比參考文獻的分割精準度更高，而在對手術縫合影片進行運動模擬時，每個測試集觀察到的位置誤差為0.94公分。研究人員提到，他們並未對針和縫合目標進行接觸動力學建模，而是僅在運動層級模擬縫合動作。

JIGSAWS是JHU-ISI Gesture and Skill Assessment Working Set的縮寫，該資料集包含了來自約翰霍普金斯大學，和生產達文西外科手術系統的直覺外科公司的手術影片。

熱門新聞