和其他框架相比,新神經圖像學習框架Graph-RISE搜尋的相似圖片,和原始圖片較為接近(綠色代表相似圖片,紅色為其他圖片)。(圖片來源/Google)

使用Google搜尋關鍵字,除了可以尋找你想要的網路資訊,許多人也會搜尋圖片,但如何準確搜尋到你想要的圖片,系統必需要對圖片的意義有深一層的理解,才能盡可能地貼近使用者的需求。

近期在臺灣舉行的Web Conference 2020上,Google研究院總監Andrew Tomkins介紹了新的神經圖像學習框架Graph-RISE(Graph-Regularized Image Semantic Embedding),可對圖像的語義有更精細地理解,已實際部署到Google的服務中。

Andrew Tomkins舉例說明,早期的圖像語意分析,粗略地分類圖像產生的標籤,只是類別層級(Category-level)的劃分方式,例如將所有含有橋、河的圖片分為一類,後來進一步強化圖像學習技術,進入顆粒度更小的細緻層級歸類作法,可以將多張含有紅色鋼鐵橋的圖片歸成一類,如果能夠進一步區分所有含有橋的圖片,例如能將含有不同角度,天空、河水顏色看起來不一樣的金門大橋圖片,都分類為金門大橋類別,就進入超高精細度的實例層級(Instance-level),可用實例或實際物件(Instance)來作為歸類的劃分範疇。

「透過實例層級分類,更精準地掌握圖像內嵌的語意,正是圖像搜尋服務的核心」,Andrew Tomkins說。當使用者輸入文字或圖片搜尋金門大橋時,希望能得到相關的圖片搜尋結果。

因此,必需要為圖像找到適合它們的實例層級標籤,才能在人們使用搜尋時,盡可能貼近使用者的本意。

為此,研究團隊先用人們進行搜尋時,查看搜尋結果所點選的縮圖,經過去識別化處理、蒐集,依搜尋詞語出現的頻率選定虛擬標籤,共找出了4千萬個虛擬標籤,產生2.6億張的樣本圖像,這些圖像都已和虛擬標籤配對,再加上未標籤化的圖像,作為訓練用的資料。目標是找出內嵌模型,當兩張圖像為同一個分類,Image Embedding距離才會縮短。

在Graph-RISE框架中,先輸入一張標籤化的圖片及一張相似圖片(標籤或未標籤化),經過ResNet-101產生Image Embedding,再用於圖像正規化處理。

這裡所使用的相似圖片,是從使用者每次搜尋時,所產生的相似圖片關係,建立的共同發生圖像網絡(Co-Occurrence Graph)中選出。

接下來再通過Softmax函數,從4千萬個查詢標籤(分類)裡,預測可能符合圖片語義的標籤。不過,Andrew Tomkins指出,要從4千萬個標籤中選出可能性較高的標籤,在實務上可能不太符合效益,為了讓運算處理更有效率,因此,Google從所有標籤中取樣出10萬個來進行預測。

為了測試其效果,在視覺品質方面,他們隨選出6張圖片進行搜尋,在10億張圖片中搜尋相似圖片,比較DeepRanking、ResNet(未經圖像正規化處理)和Graph-RISE三種框架的搜尋結果,再由人類專家評比,找到的圖片是否接近原圖。結果發現,Graph-RISE所找到的相關圖片,準確性比另兩種框架更高,但是在某些圖片,Graph-RISE也會發生找錯圖片的情形。

而使用kNN Accuracy在ImageNet和iNaturalist兩個公開資料集上來測試模型的準確性,Graph-RISE(40M)的準確性高於其他;使用內部資料集,在Triplet Accuracy測試,準確性也優於其他框架。

目前他們已將圖像正規化工具開源,並釋出到TensorFlow中。


Advertisement

更多 iThome相關內容