Google第二代行動裝置版電腦視覺神經網路模型出爐！讓手機執行影像辨識更快更準

Google在去年6月推出行動裝置版的電腦視覺神經網路模型MobileNetV1，近日則在官方部落格中宣布推出第二代MobileNetV2，改善了分類、物件偵測和語義分割（Semantic Segmentation）技術，不論是速度和準確率都有所提升，已於今年1月發表MobileNetV2的論文，Google相信MobileNetV2將會對許多視覺辨識任務有幫助。

MobileNetV2是以第一代為基礎來改善，延續了第一代透過深度可分離卷積（Depthwise Separable Convolution）的方式，來達到壓縮模型的目的，減少參數並提升運算速度，不過，第二代還新增了2項特性，層間的線性轉換方式（Linear bottleneck），以及Bottleneck之間的捷徑連接（Shortcut connections）。

第二代在深度可分離卷積方法前，增加了1X1的擴張層，來增加Channel數量，進而製造更多特徵，最後輸出時則不用線性整流單元（Rectified Linear Unit，ReLU）函數，為了避免特徵被破壞，改採用線性轉換的方式。

另一個特性則是，MobileNetV2與傳統的ResNet不同，ResNet是先壓縮維度，透過卷積萃取特徵，最後再擴張，而MobileNetV2則是相反的結構（Inverted residuals），先擴張，萃取特徵，最後再壓縮，因此，捷徑連接的是維度縮減後的結果。

MobileNetV2模型的結構圖，圖片來源：Google。

Google表示，MobileNetV2相比第一代的模型，在同樣的準確率下，執行的速度更快，尤其是，在Google Pixel手機上測試，新的模型所需的操作減少了2倍，所需的參數也少了30%，提升了大約30～40%的速率，準確度也有提升。

熱門新聞