Google在去年6月推出行動裝置版的電腦視覺神經網路模型MobileNetV1,近日則在官方部落格中宣布推出第二代MobileNetV2,改善了分類、物件偵測和語義分割(Semantic Segmentation)技術,不論是速度和準確率都有所提升,已於今年1月發表MobileNetV2的論文,Google相信MobileNetV2將會對許多視覺辨識任務有幫助。

MobileNetV2是以第一代為基礎來改善,延續了第一代透過深度可分離卷積(Depthwise Separable Convolution)的方式,來達到壓縮模型的目的,減少參數並提升運算速度,不過,第二代還新增了2項特性,層間的線性轉換方式(Linear bottleneck),以及Bottleneck之間的捷徑連接(Shortcut connections)。

第二代在深度可分離卷積方法前,增加了1X1的擴張層,來增加Channel數量,進而製造更多特徵,最後輸出時則不用線性整流單元(Rectified Linear Unit,ReLU)函數,為了避免特徵被破壞,改採用線性轉換的方式。

另一個特性則是,MobileNetV2與傳統的ResNet不同,ResNet是先壓縮維度,透過卷積萃取特徵,最後再擴張,而MobileNetV2則是相反的結構(Inverted residuals),先擴張,萃取特徵,最後再壓縮,因此,捷徑連接的是維度縮減後的結果。

MobileNetV2模型的結構圖,圖片來源:Google。

Google表示,MobileNetV2相比第一代的模型,在同樣的準確率下,執行的速度更快,尤其是,在Google Pixel手機上測試,新的模型所需的操作減少了2倍,所需的參數也少了30%,提升了大約30~40%的速率,準確度也有提升。

熱門新聞

Advertisement