Google揭露Pixel 4臉部解鎖所用的深度感測技術uDepth細節

由uDepth所產生的單個影格RGB點雲

深度感測（Depth Sensing）被大量應用在手機應用上，支援包括人臉解鎖、3D照片與景深場景分割等功能，而Google在Pixel 4上，應用了一種稱為uDepth的即時紅外線主動式立體深度感測器，即便在黑暗環境，也能快速且精準的運作，計算出相機場景的深度資訊，而且uDepth所生成的深度資訊，Google最近也開放給外部使用，開發者可在Camera2 API中找到uDepth相關的功能。

Google提到，深度感測是電腦視覺的一個熱門的研究領域，能應用攝影機的肖像模式，或是AR等應用上，但傳統利用RGB的立體深度感測技術，計算成本很高，在低材質的區域效能表現不佳，且在極弱光的環境下，可能會完全失去作用。立體攝影機是利用視差來重建深度，跟人類產生立體視覺的原理相似，人類只用右眼與只用左眼看同一個場景，同一個物體的位置看起來會有所不同，且距離眼睛越近的物體差異越大。

而Google在Pixel 4手機上使用的uDepth技術，也是利用這個原理，計算出每個畫素的視差；透過比較一臺相機中每一個畫素周圍區域，與另一個相機成像中的相似區域，重建出實際的物理距離，另外，像是人臉解鎖這種深度感測應用，必須在黑暗中，也能快速良好地運作，為了處理低材質與弱光環境的問題，uDepth運用了主動式立體配置，可投影紅外線圖案到場景中，幫助場景深度檢測，降低系統運算要求。

不過，由於典型主動式立體系統投影出去的隨機網格圖案，雖然可以幫助消除場景中比對的歧異，但是由於uDepth在看起來相似的重複結構圖形，可能使得比對發生錯誤，因此Google使用了輕量級卷積架構，並同時結合紅外線的亮度和鄰近資訊，來修正錯誤比對的情況，這些計算每個影格只要花費1.5ms的時間就能完成。

另外，當手機受到嚴重撞擊時，可能導致立體攝影機的出場校準與實際的位置不同，因此為了持續保持相機的精確度，uDepth系統採用自動校準技術，系統會評估深度圖像是否存在未校準的訊號，並建立對裝置狀態的信心，只要系統檢測到錯誤校準，便會立刻重新產生較準參數。

Google提到uDepth的設計，是為了用在臉部辨識上，因此原始資料非常的精確，其需求與相機應用程式的肖像模式與3D相片的計算非常不同，後者計算的影像影格速率並不重要，但是產生的深度資訊需要平滑，且物體邊緣要平整，也需要對整個畫面進行處理。因此Google訓練了一個端到端深度學習架構，結合RGB圖像、人像分割以及原始深度，強化了原始uDepth資料，以推測出完整且密集的3D深度圖。

uDepth可產生30Hz的深度資訊串流，開發者現在已經可以從Camera2 API中取得，而經過後處理所產生的平滑深度圖，目前則應用在Google攝影應用程式中，當使用者啟用社交媒體深度功能後，使用Pixel 4所拍攝的自拍照，系統會為每個畫素產生平滑且密集的深度資訊，可用於社交媒體上的散景與3D照片上。

熱門新聞