圖像辨識優化新作法，不必手動標記，臉書AI研究院用35億張Hashtag圖片改善圖像辨識模型

圖片來源:

臉書

臉書AI研究院最近發表一項透過主題標籤（Hashtag）當作標籤的方法，來訓練出更準確的圖像辨識模型，臉書預計未來會將這項研究成果應用到臉書回顧的功能中，也計畫將這項成果整合到模型中，並開源釋出，讓研究社群可以用來開發更高階的任務。

圖像辨識是臉書AI研究院和的研究重心之一，研究人員和工程師都希望能在電腦視覺技術上有所突破，應用在真實的世界中帶給人類幫助，舉例來說，臉書過去曾開發用AI自動生成圖片敘述的應用，幫助視力受損的用戶了解貼文圖片的內容。

為了要改進電腦視覺系統和訓練系統能夠辨識出大規模多樣化的物體，現在大多需要數十億圖像規模的資料集，而不是數百萬的圖片資料集就能訓練出這樣的圖像辨識模型。

由於現有的模型，都是透過人類手動標記圖片來當作訓練資料集，即使監督式學習的方法能夠訓練出較準確的辨識模型，大量的資料集若都需要透過人工標記，所花費的成本和時間都非常可觀，要手動標記數十億的訓練資料集幾乎是不可行。

於是，臉書的研究團隊用帶有Hashtag的公開分享圖片當作訓練資料，巧妙地解決了大量圖片需要人工標記的問題，最大的資料集由1萬7千個Hashtag的35億張圖片組成，這個方法的關鍵是用由用戶提供的現有和公開Hashtag來當作圖片的標籤（Label），取代以往用人工的方式將每張圖片分類。

在臉書AI研究院測試實驗中，透過1,500個Hashtag的10億圖片來訓練電腦視覺系統，經過常見的圖像辨識測試工具ImageNet，辨識正確率可達85.4％，這是在ImageNet中目前最高的準確率，比第二高的準確率高出2%，

研究團隊認為，這項研究成果將可以讓研究人員更近一步了解，如何從監督式轉移到弱監督訓練（Weakly supervised training）方法，也就是用現有的標籤，而不是用為特定AI訓練模型創造的標籤。

臉書AI研究院認為，大多數的使用者都會為自己的貼文圖片加上Hashtag，這些圖片將會是很理想的訓練資料來源，不過，Hashtag包含了多種層次的概念，像是#tbt是回顧上週四，也包含一些較模糊的概念，像是#party，有可能是形容一個活動或是一個場景，包含模糊概念或是與圖片不相關的主題標籤，都會混淆深度學習模型。

研究團隊將這類型的主題標籤視為標籤雜訊，標籤雜訊會影響大規模的訓練工作，因此，研究團隊開發了一套專門用Hashtag進行監督式圖像辨識的方法，將每張圖片的多個Hashtag透過同義詞排序，並平衡頻繁出現和較稀少的Hashtag，為了確保Hashtag對圖像辨識模型訓練有效，團隊還訓練了一套預測主題標籤的模型，這個方法顯示出在轉移學習上有很不錯的成果，也意味著這套圖像辨識模型可以應用到更多、更廣的AI系統中。

雖然這項成果是電腦視覺技術的一大突破，但是在研究的過程中，也發現了一些問題和挑戰，像是大規模的訓練和標籤雜訊，增加訓練資料通常能夠增加圖像分類的正確性，但是也會產生新的問題，選擇與特定辨識物體相關的標籤是非常重要的，若沒有經過挑選，模型辨識能力可能會下降，而如何充分利用所有1萬7千個Hashtag來訓練模型也是一個待研究的課題。

在處理標籤雜訊的部分，研究團隊沒有用複雜的去除雜訊方法，而是將相似的標籤配對，將不相似的標籤減少權重來計算，在訓練的過程中，只有稍微調整標籤，而實驗結果也證明，標籤雜訊對大規模的訓練集影響不大。

在未來，臉書也預想除了用Hashtag來當作辨識的標籤之外，Hashtag也可以讓臉書更了解影片和圖片內容，作為動態牆的排序，或是Hashtag還能指出圖片中更具體的子類別，舉例來說，一般的分類只能辨識出一隻鳥在樹林中，若透過Hashtag還能知道鳥和樹的種類。

熱門新聞