Google釋出開放圖片資料庫Open Images，供社群用以訓練機器學習模型

圖片來源:

Google

Google日前發布開放圖片資料庫Open Images，包含了9百萬個含有CC授權標籤的圖片URL，涵蓋6千多種種類圖片，Google利用Open Images資料庫來訓練機器學習模型，教電腦學會分辨圖片中的內容。

Google與卡內基梅隆大學（CMU）和康乃爾大學（Cornell university）合作建立Open Images資料庫，加上近期釋出的YouTube影片資料庫YouTube-8M，期望能為機器學習社群用來訓練機器學習模型有力的工具。

Open Images資料庫包含的圖片標籤所涵蓋的真實物品種類，比1千多個ImageNet電腦視覺模型還要多，Google表示，這些圖片種類的數量足以用來訓練深度神經網路，且這些圖片均具備CC授權。

根據Google的說明，圖片中的標籤是用類似Google雲端視覺API（Google Cloud Vision API）的視覺模型自動標註的，這個視覺模型能夠分析圖片中的內容，並歸類圖片，Google表示，平均每張圖片會有8個標籤，且需要透過人工驗證這些自動標籤，以找出和移除錯誤的標籤。

但Google並不保證Open Images資料庫的每張圖片都遵循CC授權，使用者需要再次自行驗證圖片的使用許可。

此外，Google已經利用Open Images資料庫來訓練旗下Inception v3機器學習模型，且這套模型已經可以用來微調應用程式和其他的應用，如Google開源應用程式DeepDream，Google計畫在未來幾個月中，改進Open Images資料庫的圖片標籤品質，以提升機器學習模型的訓練品質。

熱門新聞