Google研究團隊開源在Tensorflow中實作的語意影像切割(Semantic Image Segmentation)模型DeepLab-v3+,包括Google Pixel 2和Pixel 2XL手機上的肖像模式(Portrait Mode),以及YouTube為影片即時去背換背景功能,都是這項技術的應用。

Google研究軟體工程師Liang-Chieh Chen以及Yukun Zhu表示,語意影像切割的主要目的,就是為每個畫素指定語意標籤,諸如路、天空、人或是狗等物體,不少的程式需要這樣的功能,像是合成景深(Synthetic Shallow Depth-of-field)效果,應用在手機Pixel 2和Pixel 2XL上提供的肖像模式(Portrait Mode),能自動模糊人物的背景,作出類似單眼相機的景深效果。

另外,在多數攝影App都會提供的即時影像切割(Video Segmentation),例如最近在YouTube發表的新功能,為影片即時去背換背景的功能,也是語意影像切割的應用。

DeepLab-v3+在Tensorflow上實作,使用部署於伺服器端的卷積神經網路(CNN)骨幹架構,以獲取最佳的結果。除了程式碼之外,研究團隊也同時公開了Tensorflow模型訓練以及評估程式,以及使用Pascal VOC 2012與Cityscapes資料集訓練的模型。

DeepLab-v3+技術是基於三年前的DeepLab模型,期間改進了卷積神經網路特徵萃取器、物體比例塑模以及同化前後內容的技術,再加上進步的模型訓練過程,還有軟硬體的升級,從DeepLab-v2到DeepLab-v3,直到現在發表的DeepLab-v3+,讓效果一代比一代好。

DeepLab-v3+是由DeepLab-v3擴充而來,研究團隊增加了解碼器模組,能夠細化分割結果,能夠更精準的處理物體的邊緣,並進一步將深度卷積神經網路應用在空間金字塔池化(Spatial Pyramid Pooling,SPP)和解碼器上,大幅提升處理物體大小以及不同長寬比例的能力,最後得到強而有力的語意分割編碼解碼器網路。

Liang-Chieh Chen以及Yukun Zhu特別提到,隨著軟硬體的升級,建構在卷積神經網路上的現代語意圖像分割功能,可以達到的水準已經遠遠超過5年前的想像。


Advertisement

更多 iThome相關內容