Meta發表最新的物體偵測研究,採用新方法的ViTDet模型,在LVIS(Large Vocabulary Instance Segmentation)資料集的電腦視覺表現優於其他基於ViT(Vision Transformers)的模型。ViTDet不僅能夠偵測桌椅等標準物體,還能夠找出包括餵鳥器、花圈和甜甜圈等物品。

這項研究之所以重要,是因為物體偵測是電腦視覺一個重要的任務,應用範圍從自動駕駛、電子商務甚至是增強實境,要使物體偵測更有用,就需要能夠辨識出更多不常見的物件,或是在訓練資料中很少出現的物件。

以過去物體偵測的任務來說,FPN(Feature Pyramid Networks)基本上是標準設計,但Meta這項新研究,顯示這並非必然,僅從單一尺度的特徵圖,就可以建構簡單的特徵金字塔,不需要用到過去常見的FPN設計,直接使用ViT最後一層特徵,就可以重建出FPN,這樣的做法更為簡單直覺,對運算效能來說,記憶體使用下降,訓練和推理的速度也更快。

新的ViTDet模型受益於其更大的主幹,以及更好的MAE(Masked Autoencoders)預訓練方法,即便ViTDet模型運算量少上許多,但是效能仍優於過去的領先方法。Meta現在於開源Detectron2物體偵測函式庫中釋出ViTDet程式碼和訓練方法,作為新的基線。

熱門新聞

Advertisement