1.5秒連拍90張挑最好，Pixel 3如何幫你找出最佳鏡頭

最佳鏡頭（Top Shot）是Google最近推出剛放進Pixel 3的新功能，可以幫助使用者在按下快門時，自動地精確捕捉有價值的瞬間。最佳鏡頭使用電腦視覺技術，即時保存和分析裝置上快門按下前後的圖像，並推薦使用者替代的高品質HDR+照片。Google今日公開其技術細節。

Google 在其自家旗艦手機Pixel 3加入了許多先進技術，以提升拍照品質，包括讓數位變焦比擬光學變焦的畫質，還有強大的Night Sight功能，即便是晚上低光照都能拍得清楚，以及使用機器學習改善人像模式景深效果，不只這樣，Pixel 3的相機還預設啟用最佳鏡頭功能，幫助使用者捕捉最佳鏡頭。

當用戶打開Pixel 3照相應用程式時，預設情況下就會啟動最佳鏡頭功能，當使用按下快門時，系統會自動從按下快門前與後的1.5秒，在3秒間拍攝90張照片，最後使用者可以選擇兩張高解析度的照片，除了原本按下快門的那一張，還會有一張高解析替代圖片供使用者選擇。系統會對使用者按下快門前後所拍下的圖像，進行判斷主體是否微笑等質性特徵分析，同時也會把圖像中的光流、曝光時間以及陀螺儀等感測資料，作為評估圖像品質的特徵。

最佳鏡頭參考三個關鍵屬性，第一，諸如打光等功能品質，第二、主觀品質，像是照片人物的眼睛是否睜開，抑或是表情有沒有微笑，第三，情緒表達等客觀品質。Google設計了一個電腦視覺模型，以便低延遲的在裝置上進行這些屬性辨識。

而為了提供即時低延遲的拍照體驗，Pixel 3上使用Google Visual Core來處理這些HDR+圖像，並嵌入到動態照片中。Google提到，由於最佳鏡頭功能是後臺程序，必須要非常省電，所以最佳鏡頭使用硬體加速的MobileNet SSD（Single Shot Detector），不過最佳化模型的執行，仍受到電力以及熱的限制。

這個神經網路設計，在前面網路層進行較低階的視覺屬性偵測，進行物體模糊程度等判斷，之後才進行比較複雜的的主觀與客觀屬性判斷。Google在訓練和推理期間，量化（Quantization）大量各類型臉部照片，並且使用神經網路知識蒸餾（Knowledge Distillation）技術，接著使用分層廣義加法模型（GAM）來為臉部評估品質分數，組合成加權平均影格臉部（Frame Faces）分數。

Google提到，這個模型讓他們能夠簡單的解釋知識識別成功與失敗的原因，進而實現快速迭代，以提高屬性模型的品質與效能。雖然最佳鏡頭會優先處理臉部特徵，但在部分非臉部為主體的場景，則主要考量物體運動、全域運動模糊以及自動曝光、自動對焦和自動白平衡3A的分數。

為了測試最佳鏡頭的品質，Google找來數百名自願者進行測試評估，貢獻的資料集涵蓋肖像、自拍、動作和風景等拍照情境，而且為了確保最佳鏡頭對所有用戶都提供一致的體驗，Google針對性別、年齡以及種族等不同子群集進行測試，以確保這些模型使用的屬性在每個子群集中都同樣精確。

熱門新聞