
人工智慧研究機構Ai2開源MolmoAct模型,其被定位為行動推理模型(Action Reasoning Model,ARM),針對機器人在三維空間中的動作規畫與理解而設計。MolmoAct模型採用三階段空間感知流程,結合視覺與語言能力,提升機器人針對物理環境的空間推理精度,並提供完整的模型權重、程式碼與訓練資料,方便研究人員與開發者驗證與擴充。
MolmoAct在設計上旨在克服傳統視覺語言行動模型(VLA)僅依賴文字描述推導動作的限制。Ai2指出,語言雖適合抽象推理,但難以完整表達三維環境的深度與距離關係,因此MolmoAct在第一階段先輸出由VQVAE預訓練取得的空間感知Token,這些Token同時包含幾何結構與位置資訊,可用於評估物體間距離並作為後續規畫的基礎。
第二階段,模型在影像空間中生成一系列路徑點,作為任務中間目標,直觀描繪動作展開的順序。該規畫過程與具體機器人型態無關,使模型具備跨硬體的泛化能力。第三階段則將路徑點轉換為機器人末端執行器或夾爪的低階馬達指令,並依照機器人運動學配置做動作解碼。
研究人員指出,在名為SimplerEnv的模擬測試環境中,MolmoAct-7B在應對沒在訓練時看過的任務時,成功完成的比例達到72.1%,優於Physical Intelligence、Google、微軟與Nvidia等多家實驗室的對照模型。在LIBERO模擬平臺進行的多任務與終身學習測試中,透過參數高效率微調,平均成功率達86.6%。此外,與部分大型模型相比,MolmoAct的訓練成本更低,預訓練僅使用2,630萬樣本與256顆H100 GPU,約1天即可完成,微調則用64顆H100僅需約2小時。
為了降低機器人操作風險並提升可解釋性,MolmoAct在執行動作前會將內部規畫的移動軌跡疊加在輸入影像上,使用者可直接檢視並修正動作計畫,也能透過平板、手機或筆電以手繪方式標示目標姿態或路徑,模型會即時整合這些標註進行調整。
Ai2此次同步釋出MolmoAct-7B的完整開源資源,包括訓練檢查點、評測工具及約1萬段經過行動推理鏈標註的機器人操作影片資料集,部分資料來自精選的Open-X Embodiment子集。官方強調,這些資料與工具可協助研究團隊在不同機器人平臺與任務中驗證並微調模型。
熱門新聞
2025-12-12
2025-12-16
2025-12-15
2025-12-15
2025-12-15
2025-12-15
2025-12-16
2025-12-15