Google為雲端TPU運算服務開源釋出兩套影像分割模型

圖片來源:

Google

Google最近為雲端TPU運算服務開發了兩套影像分割（segmentation）模型，分別是Mask R-CNN和DeepLab v3+，Google指出，兩套模型的效能和成本不同，使用者可依據自家業務或是產品的需求，來選擇適合的模型和TPU配置，且為了方便開發者處理影像分割的過程，Google還將兩套模型開源釋出。

Google在2017年5月推出雲端TPU運算服務，就是為了加速機器學習應用，包含影像辨識、語言模型和強化學習等，現在推出兩套專為雲端TPU運算服務打造的影像分割模型，是為了使機器學習研究員、工程師、App開發者、學生等，能夠更快速地訓練出符合真實世界影像分割需求的自家模型。

影像分割是在圖像中標註區域的過程，通常需要細分到像素等級，目前有兩種較常見的影像分割方法，包含實例（instance）分割和圖像語義（semantic）分割，實例分割的過程，能夠針對一個或是多個物體類別的每個個別實例，給予一個距離標註，舉例來說，在一張全家福的照片中，包含了多個人物，用實例分割方法的模型會自動用不同顏色標註每個人。另一種則是圖像語義分割，該方法會根據物體的類別或是結構，來標註圖片中的每個像素，像是一張城市的街景圖可能會有人行道、建築物、行人、車輛等標籤。

自動駕駛、地理空間影像處理和醫療影像等其他的應用，通常都需要這些影像分割的技術，甚至是在一些特定的照片和影片編輯處理中，像是散景（bokeh）或是去背，影像分割都扮演著重要的角色，而開發者在使用影像分割模型時，會考量多種因素，包含模型準確度、訓練成本和時間等，為了協助開發者找出適合自家的影像分割模型，Google用標準的影像分割資料庫，訓練了Mask R-CNN和DeepLab v3+，並收集了訓練相關的數據，提供開發者參考。

為了達到影像分割最佳的效能，需要整合極快的硬體和最優化的軟體，Mask R-CNN是一個兩階段的實例分割模型，能夠用來定位影像中的多個物體，第一階段先從輸入影像中萃取出特徵，並產生區域分割建議，這些區域被模型認為含有目標物體，而第二階段則是過濾並精化區域分割建議，進而預測每個物體的類別，以及為每個物體生成一個像素級的遮罩（mask）。

在Mask R-CNN模型的實驗中，Google發現，在模型的訓練時間和準確率之間，必須有所取捨，模型準確率在不同的應用中，會有不同的要求，對有些應用來說，訓練時間可能是首要考量因素，但對於其他應用而言，準確率才是最重要的，而模型所需的訓練時間，也會依據訓練樣本數和TPU硬體配置而有所不同，

另外，DeepLab v3+則是個快速又準確的語義分割模型，使得在圖像中標註區域的工作變得更加容易，舉例來說，照片編輯應用可能會用DeepLab v3+模型，來自動選出風景照中，所有包含天空的像素。Google在去年就宣布，開源釋出最初版的DeepLab v3+，而現在則是推出針對雲端TPU更加優化過的版本，Google在TensorFlow 1.13框架中，搭配雲端TPU v2和 TPU v3 的硬體，用PASCAL VOC 2012資料集訓練DeepLab v3+模型，若只用單個雲端TPU v2設備來訓練，DeepLab v3+模型能在大約8小時內完成訓練，且成本少於40美元。

熱門新聞