圖片來源: 

Google

Google日前發布開放圖片資料庫Open Images,包含了9百萬個含有CC授權標籤的圖片URL,涵蓋6千多種種類圖片,Google利用Open Images資料庫來訓練機器學習模型,教電腦學會分辨圖片中的內容。

Google與卡內基梅隆大學(CMU)和康乃爾大學(Cornell university)合作建立Open Images資料庫,加上近期釋出的YouTube影片資料庫YouTube-8M,期望能為機器學習社群用來訓練機器學習模型有力的工具。

Open Images資料庫包含的圖片標籤所涵蓋的真實物品種類,比1千多個ImageNet電腦視覺模型還要多,Google表示,這些圖片種類的數量足以用來訓練深度神經網路,且這些圖片均具備CC授權。

根據Google的說明,圖片中的標籤是用類似Google雲端視覺API(Google Cloud Vision API)的視覺模型自動標註的,這個視覺模型能夠分析圖片中的內容,並歸類圖片,Google表示,平均每張圖片會有8個標籤,且需要透過人工驗證這些自動標籤,以找出和移除錯誤的標籤。

但Google並不保證Open Images資料庫的每張圖片都遵循CC授權,使用者需要再次自行驗證圖片的使用許可。

此外,Google已經利用Open Images資料庫來訓練旗下Inception v3機器學習模型,且這套模型已經可以用來微調應用程式和其他的應用,如Google開源應用程式DeepDream,Google計畫在未來幾個月中,改進Open Images資料庫的圖片標籤品質,以提升機器學習模型的訓練品質。


Advertisement

更多 iThome相關內容