【直擊Web科技最前線：Google研究院】新神經圖像學習框架登場，圖片搜尋更貼近場景需求

和其他框架相比，新神經圖像學習框架Graph-RISE搜尋的相似圖片，和原始圖片較為接近（綠色代表相似圖片，紅色為其他圖片）。（圖片來源／Google）

使用Google搜尋關鍵字，除了可以尋找你想要的網路資訊，許多人也會搜尋圖片，但如何準確搜尋到你想要的圖片，系統必需要對圖片的意義有深一層的理解，才能盡可能地貼近使用者的需求。

近期在臺灣舉行的Web Conference 2020上，Google研究院總監Andrew Tomkins介紹了新的神經圖像學習框架Graph-RISE（Graph-Regularized Image Semantic Embedding），可對圖像的語義有更精細地理解，已實際部署到Google的服務中。

Andrew Tomkins舉例說明，早期的圖像語意分析，粗略地分類圖像產生的標籤，只是類別層級(Category-level)的劃分方式，例如將所有含有橋、河的圖片分為一類，後來進一步強化圖像學習技術，進入顆粒度更小的細緻層級歸類作法，可以將多張含有紅色鋼鐵橋的圖片歸成一類，如果能夠進一步區分所有含有橋的圖片，例如能將含有不同角度，天空、河水顏色看起來不一樣的金門大橋圖片，都分類為金門大橋類別，就進入超高精細度的實例層級（Instance-level），可用實例或實際物件（Instance）來作為歸類的劃分範疇。

「透過實例層級分類，更精準地掌握圖像內嵌的語意，正是圖像搜尋服務的核心」，Andrew Tomkins說。當使用者輸入文字或圖片搜尋金門大橋時，希望能得到相關的圖片搜尋結果。

因此，必需要為圖像找到適合它們的實例層級標籤，才能在人們使用搜尋時，盡可能貼近使用者的本意。

為此，研究團隊先用人們進行搜尋時，查看搜尋結果所點選的縮圖，經過去識別化處理、蒐集，依搜尋詞語出現的頻率選定虛擬標籤，共找出了4千萬個虛擬標籤，產生2.6億張的樣本圖像，這些圖像都已和虛擬標籤配對，再加上未標籤化的圖像，作為訓練用的資料。目標是找出內嵌模型，當兩張圖像為同一個分類，Image Embedding距離才會縮短。

在Graph-RISE框架中，先輸入一張標籤化的圖片及一張相似圖片（標籤或未標籤化），經過ResNet-101產生Image Embedding，再用於圖像正規化處理。

這裡所使用的相似圖片，是從使用者每次搜尋時，所產生的相似圖片關係，建立的共同發生圖像網絡（Co-Occurrence Graph）中選出。

接下來再通過Softmax函數，從4千萬個查詢標籤（分類）裡，預測可能符合圖片語義的標籤。不過，Andrew Tomkins指出，要從4千萬個標籤中選出可能性較高的標籤，在實務上可能不太符合效益，為了讓運算處理更有效率，因此，Google從所有標籤中取樣出10萬個來進行預測。

為了測試其效果，在視覺品質方面，他們隨選出6張圖片進行搜尋，在10億張圖片中搜尋相似圖片，比較DeepRanking、ResNet（未經圖像正規化處理）和Graph-RISE三種框架的搜尋結果，再由人類專家評比，找到的圖片是否接近原圖。結果發現，Graph-RISE所找到的相關圖片，準確性比另兩種框架更高，但是在某些圖片，Graph-RISE也會發生找錯圖片的情形。

而使用kNN Accuracy在ImageNet和iNaturalist兩個公開資料集上來測試模型的準確性，Graph-RISE（40M）的準確性高於其他；使用內部資料集，在Triplet Accuracy測試，準確性也優於其他框架。

目前他們已將圖像正規化工具開源，並釋出到TensorFlow中。

熱門新聞