Google釋出地理多樣性圖片說明資料集Crossmodal-3600

Google釋出圖片說明評估資料集Crossmodal-3600，該資料集可作為語言圖像說明的基準，使研究人員可以更可靠地研究該領域。Crossmodal-3600以36種語言，對世界各地不同的3,600張照片，加上261,375個人工生成的參考說明，研究人員提到，Crossmodal-3600的圖片說明品質很好，而且在不同語言中維持風格一致。

替圖像自動產生說明是近年新興的機器學習領域，針對給定的圖像自動生成自然語言文字，這項工作有助改善視障用戶的可存取性，Google提到，目前用於圖像字幕的資料集主要以英文為主，只有少數資料集涵蓋有限數量的語言，而且這些資料集無法表現全球文化的豐富性和多樣性，也就阻礙了各種語言對圖片說明的研究。

Crossmodal-3600包含36種語言，由人工手動對Open Images資料集中3,600張具地理多樣性的圖片，添加261,375個人工生成的參考說明。研究人員選擇英語之外的30種語言，大致根據網路內容所占的百分比，另外，他們還另外選擇了5種資源較少的語言，將英文當作基準，最終產生36種語言的圖片說明。

Crossmodal-3600中的圖像使用具有後設資料的Open Images資料集，但因為有許多區域使用一種以上的語言，而且這些圖像並沒有良好地覆蓋部分區域，因此研究人員設計了演算法，來最大化所選圖像和目標語言區域之間的對應關係。

Google在各語言區域都對應了100幅圖像，總共3,600張圖片用36種語言進行註解，每種語言平均有兩種註解，總共產生261,375個圖說。經過訓練的模型會先對圖片產生初始的圖說，Google再請註解者評估模型產生的說明，並且隨後要求註解者單獨對每張圖像，添加目標語言的描述性說明，Crossmodal-3600資料集便是由這些註解者編寫的說明組成。

研究人員透過訓練4種圖片說明生成模型變體，並使用Crossmodal-3600資料集，比較CIDEr指標和人工評估的輸出，研究人員提到，CIDEr分數差異與人工評估有很強的關聯性，也就是說Crossmodal-3600可針對英語之外的語言，實現自動比較圖片說明品質。

熱門新聞