於2006年建立的Tiny Images定義為視覺字典,它奠基於眾包字典WordNet,可自動從Google的圖像搜尋與其它搜尋引擎找到符合字詞的圖片,內含逾5萬個名詞與8,000萬張圖片,由於其圖片解析度只有32x32 Pixels,因而被命名為Tiny Images。(圖片來源/http://people.csail.mit.edu/billf/papers/80millionImages.pdf)

美國麻省理工學院(MIT)在上周撤下了原本開放的Tiny Images資料集,原因為該資料集涉及種族與性別歧視,並呼籲所有以它來訓練AI系統的研究人員,應該刪除該資料集。

於2006年建立的Tiny Images定義為視覺字典,它奠基於眾包字典WordNet,可自動從Google的圖像搜尋與其它搜尋引擎找到符合字詞的圖片,內含逾5萬個名詞與8,000萬張圖片,由於其圖片解析度只有32x32 Pixels,因而被命名為Tiny Images。

MIT表示,由於Tiny Images資料集的自動圖片蒐集程序仰賴WordNet的緣故,它在許多類別與圖片上使用了貶義詞,再加上它的圖片太小,讓人們很難以肉眼辨識圖片內容,使得就算透過人工檢查,也無法保證能夠完全刪除某些令人反感的圖片。

就在全球都因美國非裔男子佛洛依德(George Floyd)之死,而展開種族正義活動的同時,MIT也說,該資料集帶有偏見及貶義的圖像與字眼,將會造成社群的隔閡,也會替利用該資料集來訓練的AI系統帶來偏差,於是他們決定永久撤下該資料集,也要求AI社群不僅不應於未來使用它,也應刪除已下載的任何副本。


Advertisement

更多 iThome相關內容