Google以圖像增強演算法強化深度學習，推測精準度創新高

AutoAugment演算法能夠自動調整圖像顏色，增加深度學習模型訓練資料多樣性

Google發表了AutoAugment技術，從訓練資料下手來增強深度學習的效率，該演算法可以找出最佳增強策略，自動增加既有資料集所能提供的資料數量與多樣性，透過這個方法，Google大幅增加了圖像推測的精準度，在ImageNet資料集中獲得了83.54％的精準度，目前排名第一。

深度學習在電腦視覺領域的應用，要提高模型的推測精準度，關鍵通常在於大量標記的訓練資料的可取得性，只要輸入越多高品質具多樣性的訓練資料，模型的效能也會隨之增加，但Google提到，重點就是收集大量的高品質訓練資料，來提高模型效能是一件非常困難的事。

過去在訓練高效能的電腦視覺模型，無論是半自動產生或是手動編輯資料的增強方法，一直都是選項之一，透過翻轉或是旋轉圖像，能讓類神經網路取得更多樣性的訓練資料，但最近的研究已經不太有人關注這個面向。Google提到，他們是因為受到自家機器學習服務AutoML的啟發，因為先例以類神經網路與Optimizer產出的結果，替換人類設計的系統元件，才重新燃起這樣的想法，他們認為，或許系統也能自動完成資料增強，讓機器學習自己決定資料增強方法，生產出更多用於深度學習訓練資料。

AutoAugment的想法很簡單，Google表示，圖像具有許多對稱性質，而這些性質的改變並不會影響圖像的內容，像是狗的圖像鏡射仍然是狗，雖然這樣的變化對人來說是顯而易見的，但像是在訓練時將圖像互相交疊，透過混合方法來增強資料，就不這麼直覺了。

AutoAugment是專為電腦視覺設計的資料集自動增強策略，除了一些基本的圖像操作，像是水平、垂直翻轉，或是單純的旋轉外，還能更改圖像的顏色。AutoAugment不僅可以預測合併圖像的變換，還是預測每個圖像變換的機率和大小，演算法不會總是以相同的方法操做圖像，AutoAugment會在2.9乘以1.32的圖像變換機率搜尋空間中，選擇一個最佳的變換政策。

AutoAugment會針對不同資料集的屬性，學習不同的圖像變換方法，像是在包含數字與自然場景的門牌號碼街道視圖，AutoAugment就會將增強處理重點，放在裁切與平移等幾何變換上，而且由於世界各地門牌號碼的樣式顏色不一，AutoAugment還學會完全反轉從門牌號碼街道視圖上收集到的門牌顏色。

而在CIFAR-10與ImageNet資料集中，AutoAugment則不會對圖片進行裁切，因為這些圖片通常不包含被截斷的物體，而且也不會反轉圖像顏色，因為最終總會出現不實際的圖像結果，但是卻會自動調整顏色分布，同時保留一般顏色的屬性，Google表示，這代表著在這兩種圖像資料集中，物體的實際顏色很重要，而在門牌號碼街道視圖則是相對的顏色重要。

Google透過AutoAugment演算法，意外的發現過去一些著名電腦視覺演算法的增強策略，而在取得這些增強策略的綜合優點後，推測精準度有了大幅度的增加，除了在ImageNet資料集中獲得了83.54％的精準度，目前排名第一外，在CIFAR10資料集上錯誤率僅有1.48％，這個結果比科學家預設的錯誤率還低0.83％。

另外，在門牌號碼街道視圖的應用上，錯誤率從原本的1.30％降低到了1.02％，而且Google提到，AutoAugment發現的增強策略是可以移植的，像是在ImageNet資料集歸納出的策略，也可以應用在福特汽車或是FGVC-Aircraft的資料集中。

熱門新聞