Meta發展出可用語言表示場景的場景生成新模型SceneScript,SceneScript的特色在於,程式不需要依賴寫死的規則,可透過端對端機器學習直接推斷房間的幾何形狀,並將其轉換為建築元素的近似值。該方法使得重建房間3D程式變得更加高效且輕巧,只需要數個位元組的記憶體,就可產生清晰且完整的幾何形狀,而且具有可解釋性,使用者可以簡單地閱讀和編輯這些表示。

開發人員參考大型語言模型預測單字的方法開發SceneScript。Llama等大型語言模型具有預測下一個Token的能力,可以根據前面的單字來預測句子的下一個單字,像是輸入句子The cat sat on the……則模型會預測下一個單字可能是mat或是floor。SceneScript運用相同的概念,只不過SceneScript模型預測的並非是一般語言Token,而是預測像是牆或是門等建築Token。

SceneScript模型經大量的資料訓練,能夠將視覺資料編碼為場景基本表示,並將其解碼為描述房間布局的語言。也就是說,SceneScript能夠根據視覺資料分析,和描述場景結構成文字,並使用這些描述重建出複雜的環境。

通常大型語言模型會使用網路上大量的資料進行訓練,但是目前物理空間還沒有可以用來訓練端到端模型所需要的資料量,因此SceneScript開發團隊放棄使用物理環境資料,並且創建了一個Aria室內環境合成資料集。Aria資料集包含10萬個完全獨特的室內環境,每個環境都使用SceneScript語言進行描述,並配有走過每個場景的模擬影片。

開發團隊使用專門用於加速人工智慧與機器學習研究的Aria眼鏡,來收集室內環境資料,並使用這些資料模擬出不同的室內環境。由於所有模擬訓練都不涉及真實世界個人資料,使得模型訓練過程可以在確保隱私的前提下進行,而且在訓練完成之後,也可以使用Aria眼鏡來驗證模型,確認模型擴展用於物理環境的能力。

開發人員提到,SceneScript的優點之一是可擴展性,只需要在Aria合成環境資料集中的「門」添加附加參數,就可以訓練網路來準確預測物理環境中門開啟和關閉的程度。此外,透過在架構語言添加新特徵,SceneScript便可以準確預測物體的位置,並進一步將這些物件拆解成組成元件,像是沙發在SceneScript語言表示為一組幾何形狀,包含了墊子、椅腳和扶手,設計師可以使用這些細節來創建真正適用於各種物理環境的增強實境內容。

SceneScript可以用於生成精確的室內地圖,對於開發混合實境和增強實境頭戴裝置非常重要,SceneScript也替大型語言模型提供了推理物理空間的必要詞彙,不僅擴展大型語言模型的應用範圍,也使其能更精確地理解和回答關於物理世界的複雜問題,在數分之一秒內就可以回答像是粉刷房間需要的油漆量等問題。開發人員認為,SceneScript是增強實境頭戴裝置的重要里程碑,能夠連起物理和數位世界。

熱門新聞

Advertisement