最佳鏡頭(Top Shot)是Google最近推出剛放進Pixel 3的新功能,可以幫助使用者在按下快門時,自動地精確捕捉有價值的瞬間。最佳鏡頭使用電腦視覺技術,即時保存和分析裝置上快門按下前後的圖像,並推薦使用者替代的高品質HDR+照片。Google今日公開其技術細節。

Google    在其自家旗艦手機Pixel 3加入了許多先進技術,以提升拍照品質,包括讓數位變焦比擬光學變焦的畫質,還有強大的Night Sight功能,即便是晚上低光照都能拍得清楚,以及使用機器學習改善人像模式景深效果,不只這樣,Pixel 3的相機還預設啟用最佳鏡頭功能,幫助使用者捕捉最佳鏡頭。

當用戶打開Pixel 3照相應用程式時,預設情況下就會啟動最佳鏡頭功能,當使用按下快門時,系統會自動從按下快門前與後的1.5秒,在3秒間拍攝90張照片,最後使用者可以選擇兩張高解析度的照片,除了原本按下快門的那一張,還會有一張高解析替代圖片供使用者選擇。系統會對使用者按下快門前後所拍下的圖像,進行判斷主體是否微笑等質性特徵分析,同時也會把圖像中的光流、曝光時間以及陀螺儀等感測資料,作為評估圖像品質的特徵。

最佳鏡頭參考三個關鍵屬性,第一,諸如打光等功能品質,第二、主觀品質,像是照片人物的眼睛是否睜開,抑或是表情有沒有微笑,第三,情緒表達等客觀品質。Google設計了一個電腦視覺模型,以便低延遲的在裝置上進行這些屬性辨識。

而為了提供即時低延遲的拍照體驗,Pixel 3上使用Google Visual Core來處理這些HDR+圖像,並嵌入到動態照片中。Google提到,由於最佳鏡頭功能是後臺程序,必須要非常省電,所以最佳鏡頭使用硬體加速的MobileNet SSD(Single Shot Detector),不過最佳化模型的執行,仍受到電力以及熱的限制。

這個神經網路設計,在前面網路層進行較低階的視覺屬性偵測,進行物體模糊程度等判斷,之後才進行比較複雜的的主觀與客觀屬性判斷。Google在訓練和推理期間,量化(Quantization)大量各類型臉部照片,並且使用神經網路知識蒸餾(Knowledge Distillation)技術,接著使用分層廣義加法模型(GAM)來為臉部評估品質分數,組合成加權平均影格臉部(Frame Faces)分數。

Google提到,這個模型讓他們能夠簡單的解釋知識識別成功與失敗的原因,進而實現快速迭代,以提高屬性模型的品質與效能。雖然最佳鏡頭會優先處理臉部特徵,但在部分非臉部為主體的場景,則主要考量物體運動、全域運動模糊以及自動曝光、自動對焦和自動白平衡3A的分數。

為了測試最佳鏡頭的品質,Google找來數百名自願者進行測試評估,貢獻的資料集涵蓋肖像、自拍、動作和風景等拍照情境,而且為了確保最佳鏡頭對所有用戶都提供一致的體驗,Google針對性別、年齡以及種族等不同子群集進行測試,以確保這些模型使用的屬性在每個子群集中都同樣精確。


Advertisement

更多 iThome相關內容