圖片來源: 

Google

Google最近為雲端TPU運算服務開發了兩套影像分割(segmentation)模型,分別是Mask R-CNN和DeepLab v3+,Google指出,兩套模型的效能和成本不同,使用者可依據自家業務或是產品的需求,來選擇適合的模型和TPU配置,且為了方便開發者處理影像分割的過程,Google還將兩套模型開源釋出。

Google在2017年5月推出雲端TPU運算服務,就是為了加速機器學習應用,包含影像辨識、語言模型和強化學習等,現在推出兩套專為雲端TPU運算服務打造的影像分割模型,是為了使機器學習研究員、工程師、App開發者、學生等,能夠更快速地訓練出符合真實世界影像分割需求的自家模型。

影像分割是在圖像中標註區域的過程,通常需要細分到像素等級,目前有兩種較常見的影像分割方法,包含實例(instance)分割和圖像語義(semantic)分割,實例分割的過程,能夠針對一個或是多個物體類別的每個個別實例,給予一個距離標註,舉例來說,在一張全家福的照片中,包含了多個人物,用實例分割方法的模型會自動用不同顏色標註每個人。另一種則是圖像語義分割,該方法會根據物體的類別或是結構,來標註圖片中的每個像素,像是一張城市的街景圖可能會有人行道、建築物、行人、車輛等標籤。

自動駕駛、地理空間影像處理和醫療影像等其他的應用,通常都需要這些影像分割的技術,甚至是在一些特定的照片和影片編輯處理中,像是散景(bokeh)或是去背,影像分割都扮演著重要的角色,而開發者在使用影像分割模型時,會考量多種因素,包含模型準確度、訓練成本和時間等,為了協助開發者找出適合自家的影像分割模型,Google用標準的影像分割資料庫,訓練了Mask R-CNN和DeepLab v3+,並收集了訓練相關的數據,提供開發者參考。

為了達到影像分割最佳的效能,需要整合極快的硬體和最優化的軟體,Mask R-CNN是一個兩階段的實例分割模型,能夠用來定位影像中的多個物體,第一階段先從輸入影像中萃取出特徵,並產生區域分割建議,這些區域被模型認為含有目標物體,而第二階段則是過濾並精化區域分割建議,進而預測每個物體的類別,以及為每個物體生成一個像素級的遮罩(mask)。

在Mask R-CNN模型的實驗中,Google發現,在模型的訓練時間和準確率之間,必須有所取捨,模型準確率在不同的應用中,會有不同的要求,對有些應用來說,訓練時間可能是首要考量因素,但對於其他應用而言,準確率才是最重要的,而模型所需的訓練時間,也會依據訓練樣本數和TPU硬體配置而有所不同,

另外,DeepLab v3+則是個快速又準確的語義分割模型,使得在圖像中標註區域的工作變得更加容易,舉例來說,照片編輯應用可能會用DeepLab v3+模型,來自動選出風景照中,所有包含天空的像素。Google在去年就宣布,開源釋出最初版的DeepLab v3+,而現在則是推出針對雲端TPU更加優化過的版本,Google在TensorFlow 1.13框架中,搭配雲端TPU v2和 TPU v3 的硬體,用PASCAL VOC 2012資料集訓練DeepLab v3+模型,若只用單個雲端TPU v2設備來訓練,DeepLab v3+模型能在大約8小時內完成訓練,且成本少於40美元。


Advertisement

更多 iThome相關內容