Meta強化電腦視覺AI高效辨識不常見物體

Meta發表最新的物體偵測研究，採用新方法的ViTDet模型，在LVIS（Large Vocabulary Instance Segmentation）資料集的電腦視覺表現優於其他基於ViT（Vision Transformers）的模型。ViTDet不僅能夠偵測桌椅等標準物體，還能夠找出包括餵鳥器、花圈和甜甜圈等物品。

這項研究之所以重要，是因為物體偵測是電腦視覺一個重要的任務，應用範圍從自動駕駛、電子商務甚至是增強實境，要使物體偵測更有用，就需要能夠辨識出更多不常見的物件，或是在訓練資料中很少出現的物件。

以過去物體偵測的任務來說，FPN（Feature Pyramid Networks）基本上是標準設計，但Meta這項新研究，顯示這並非必然，僅從單一尺度的特徵圖，就可以建構簡單的特徵金字塔，不需要用到過去常見的FPN設計，直接使用ViT最後一層特徵，就可以重建出FPN，這樣的做法更為簡單直覺，對運算效能來說，記憶體使用下降，訓練和推理的速度也更快。

新的ViTDet模型受益於其更大的主幹，以及更好的MAE（Masked Autoencoders）預訓練方法，即便ViTDet模型運算量少上許多，但是效能仍優於過去的領先方法。Meta現在於開源Detectron2物體偵測函式庫中釋出ViTDet程式碼和訓練方法，作為新的基線。

熱門新聞