由uDepth所產生的單個影格RGB點雲

深度感測(Depth Sensing)被大量應用在手機應用上,支援包括人臉解鎖、3D照片與景深場景分割等功能,而Google在Pixel 4上,應用了一種稱為uDepth的即時紅外線主動式立體深度感測器,即便在黑暗環境,也能快速且精準的運作,計算出相機場景的深度資訊,而且uDepth所生成的深度資訊,Google最近也開放給外部使用,開發者可在Camera2 API中找到uDepth相關的功能。

Google提到,深度感測是電腦視覺的一個熱門的研究領域,能應用攝影機的肖像模式,或是AR等應用上,但傳統利用RGB的立體深度感測技術,計算成本很高,在低材質的區域效能表現不佳,且在極弱光的環境下,可能會完全失去作用。立體攝影機是利用視差來重建深度,跟人類產生立體視覺的原理相似,人類只用右眼與只用左眼看同一個場景,同一個物體的位置看起來會有所不同,且距離眼睛越近的物體差異越大。

而Google在Pixel 4手機上使用的uDepth技術,也是利用這個原理,計算出每個畫素的視差;透過比較一臺相機中每一個畫素周圍區域,與另一個相機成像中的相似區域,重建出實際的物理距離,另外,像是人臉解鎖這種深度感測應用,必須在黑暗中,也能快速良好地運作,為了處理低材質與弱光環境的問題,uDepth運用了主動式立體配置,可投影紅外線圖案到場景中,幫助場景深度檢測,降低系統運算要求。

不過,由於典型主動式立體系統投影出去的隨機網格圖案,雖然可以幫助消除場景中比對的歧異,但是由於uDepth在看起來相似的重複結構圖形,可能使得比對發生錯誤,因此Google使用了輕量級卷積架構,並同時結合紅外線的亮度和鄰近資訊,來修正錯誤比對的情況,這些計算每個影格只要花費1.5ms的時間就能完成。

另外,當手機受到嚴重撞擊時,可能導致立體攝影機的出場校準與實際的位置不同,因此為了持續保持相機的精確度,uDepth系統採用自動校準技術,系統會評估深度圖像是否存在未校準的訊號,並建立對裝置狀態的信心,只要系統檢測到錯誤校準,便會立刻重新產生較準參數。

Google提到uDepth的設計,是為了用在臉部辨識上,因此原始資料非常的精確,其需求與相機應用程式的肖像模式與3D相片的計算非常不同,後者計算的影像影格速率並不重要,但是產生的深度資訊需要平滑,且物體邊緣要平整,也需要對整個畫面進行處理。因此Google訓練了一個端到端深度學習架構,結合RGB圖像、人像分割以及原始深度,強化了原始uDepth資料,以推測出完整且密集的3D深度圖。

uDepth可產生30Hz的深度資訊串流,開發者現在已經可以從Camera2 API中取得,而經過後處理所產生的平滑深度圖,目前則應用在Google攝影應用程式中,當使用者啟用社交媒體深度功能後,使用Pixel 4所拍攝的自拍照,系統會為每個畫素產生平滑且密集的深度資訊,可用於社交媒體上的散景與3D照片上。

熱門新聞

Advertisement