Google釋出Meta-Dataset,這是一個用於少樣本(Few-Shot)學習研究的資料,在這個資料集中,Google提出了一個大規模且多樣化的基準,可用於量測不同圖像分類模型的能力,並提供一個用來研究少樣本學習的框架。

Google提到,雖然最近深度學習在一些難題上,都取得了重要的進展,但是這些成功的應用,通常來自於大量需要手動註解的訓練資料,因此這也顯示出了少樣本學習的研究價值,從科學的角度來看,深度學習演算法從有限樣本中學習的能力,與人類相比的確存在明顯的差距,而另一方面,從實際應用的角度來看,少樣本學習也是一個很重要的課題,可讓模型解決缺乏大型標籤資料集的問題,使機器學習應用更加普遍。

近來有許多針對少樣本分類的研究,不過之前的基準測試皆無法可靠地評估每個模型相對的優點,因此阻礙了研究發展。Meta-Dataset由10個公開圖像資料集組成,包含ImageNet、Fungi和CUB-200-2011,還有一些手寫字元和塗鴉圖像等,Google還公開了程式碼,其中包含了筆記本,展示使用TensorFlow和PyTorch應用資料集的方法,以及使用Meta-Dataset對現存少樣本圖像分類模型,進行初步研究的成果。

標準圖像分類會用一組特定類別的圖像資料集來訓練模型,並使用同類別的圖像測試模型效能,而少樣本分類的目的則是訓練出靈活的模型,希望僅使用幾個範例就可重新使模型能分類新的圖像類別,Meta-Dataset最終目標是要讓模型,能夠在各種測試任務都能表現良好,並且處理在訓練階段未曾看過的類別。

Meta-Dataset是目前用於少樣本圖像分類研究中,最大型的跨資料集組織基準,而且其使用了特殊的採樣演算法,能夠改變每個任務中的類別數和每個類別案例數,透過加入類別不平衡和特定資料集,來改變每個任務之間的類別相似度。

在利用Meta Dataset評估當前預訓練和元學習模型之後,Google得出了一些結論,目前的方法都難以使用異構訓練資料來源,而有部分模型,比其他模型還要能夠利用資料,Google提到,Meta Dataset為少樣本分類帶來新的挑戰,並且在初步的研究,已經發現了現有方法的限制,找到需要進一步研究的方向,Google希望Meta Dataset能推動少樣本學習這個機器學習子領域的研究。


Advertisement

更多 iThome相關內容