Google人工智慧最新研究,開發出了一種稱為FACT(Full-Attention Cross-modal Transformer)的模型,能夠模仿和理解舞蹈動作,具有聽音樂編舞的能力。除了模型之外,Google還釋出了大規模多模態3D舞蹈動作資料集AIST++,包含5.2小時的1,408個舞蹈動作序列,涵蓋10種舞蹈流派,藉由AIST++ Google證明FACT模型,無論是質性或是定量研究,都優於最先進的方法。

Google提到,舞蹈是一種需要練習的藝術形式,要創造具有豐富表現力的舞蹈,舞者必須經過專業訓練,並學會豐富的舞蹈動作,這個過程對人類來說已經很困難,更別說是對機器學習模型,因為這項任務需要生成高運動複雜性的連續運動,在捕捉動作和動作間非線性關係的同時,搭配上音樂。

研究人員從資料集開始著手,在現有的AIST舞蹈影片資料集加工,產生AIST++資料集。AIST是一組沒有任何3D資訊,但是帶有音樂伴奏的舞蹈影片,AIST包含Break、Pop和Lock,以及Hip-Hop、House和Street Jazz等10種舞蹈流派,這個資料集包含舞者多視角的影片,但是攝影機並沒有經過校正。

由於研究人員的需求,利用SMPL 3D模型,復原AIST舞蹈影片中相機參數和3D人體運動,創建新的資料集AIST++,這是一個大規模3D人類舞蹈動作資料集,包含有配樂的各種3D動作。由於AIST原本是一個教學資料庫,因此紀錄了多個舞者以相同編舞,搭上不同BPM的不同音樂,這是舞蹈中常見的作法。

由於模型需要學習音樂和運動之間的一對多映射,因此這樣的現象,在跨模態序列對序列生成,形成特別的挑戰,研究人員因此需要仔細建構不重疊的訓練和測試的資料集,確保子集之間既不共享編舞也不共享配樂。

藉由使用AIST++,研究人員訓練出FACT模型,只要聽音樂就能生成3D舞蹈,並且透過與其他先進方法比較,FACT模型在動作品質、多樣性,以及音樂動作的關聯性三大指標,表現都最佳。在多種方法間,受測者更喜歡FACT模型的輸出,而且FACT模型所生成的動作,與音樂的相關性也更高。

Google研究人員所提出的FACT模型,不只可以學習音樂和動作之間的對應關係,還能以音樂為條件,生成高品質的3D動作序列。而伴隨發布的AIST++,則是迄今最大的3D人類舞蹈資料集,具有多視角、多流派和跨模態等特性,有助於促進3D運動生成研究。


熱門新聞

Advertisement