臉書開源3D深度學習函式庫PyTorch3D

臉書對外開源可將PyTorch用於3D深度學習的函式庫PyTorch3D，PyTorch3D經高度模組化以及最佳化，內含常用的3D運算子與損失函式，還有模組化微分渲染API，可讓開發者處理可微分的3D資料，並且馬上將這些功能加入到當前的深度學習系統中。

3D理解在人工智慧系統與真實世界互動上，扮演一個重要的角色，包括讓機器人可以在物理空間中導航，也能用來改善虛擬實境的體驗，甚至是辨識被遮擋的物體。臉書提到，跟2D理解相比，之所以深度學習技術較少用於3D理解，是因為要將神經網路與3D資料搭配使用非常複雜，需要有更多的記憶體與運算需求，不像2D圖像可以簡單地用張量表示，在缺乏可使用的工具與資源，許多傳統圖形運算子不可微分，都是3D深度學習發展受到限制的原因。

為此臉書建置了PyTorch3D函式庫以推動3D深度學習研究，與PyTorch專為2D辨識最佳化的函式庫類似，PyTorch3D提供了3D運算子與損失函式，可最佳化批次訓練與預測能力。為了簡化3D模型批次處理的複雜度，臉書創建了Meshes格式，這是一種專為深度學習應用程式設計，用於批次處理的異構網格模型資料結構。

這種資料結構可以讓研究人員以最有效率的資料表示法，將基礎網格模型資料，快速轉換成不同的視圖以配對運算子，也就是說，PyTorch3D讓開發者可以靈活地切換不同視圖，並且存取不同的網格屬性。

渲染是3D模型轉換成2D圖像的計算機圖學核心，這是橋接3D場景屬性和2D圖像畫素的方法，但由於傳統的渲染引擎無法微分，因此不能合併進深度學習工作管線，為此，臉書在PyTorch3D中放入了高效能的模組化微分渲染器，這個實作由可組合的單元構成，讓開發者可以簡單地擴充渲染器，以支援自定義光照或是著色效果。

臉書將這些功能打包成工具包，提供最佳化運算子、異構批次處理功能和模組化可微分渲染API等，幫助研究人員進行複雜的3D神經網路應用研究。

熱門新聞