MIT下架含有種族歧視的圖片資料集

於2006年建立的Tiny Images定義為視覺字典，它奠基於眾包字典WordNet，可自動從Google的圖像搜尋與其它搜尋引擎找到符合字詞的圖片，內含逾5萬個名詞與8,000萬張圖片，由於其圖片解析度只有32x32 Pixels，因而被命名為Tiny Images。（圖片來源／http://people.csail.mit.edu/billf/papers/80millionImages.pdf）

美國麻省理工學院（MIT）在上周撤下了原本開放的Tiny Images資料集，原因為該資料集涉及種族與性別歧視，並呼籲所有以它來訓練AI系統的研究人員，應該刪除該資料集。

於2006年建立的Tiny Images定義為視覺字典，它奠基於眾包字典WordNet，可自動從Google的圖像搜尋與其它搜尋引擎找到符合字詞的圖片，內含逾5萬個名詞與8,000萬張圖片，由於其圖片解析度只有32x32 Pixels，因而被命名為Tiny Images。

MIT表示，由於Tiny Images資料集的自動圖片蒐集程序仰賴WordNet的緣故，它在許多類別與圖片上使用了貶義詞，再加上它的圖片太小，讓人們很難以肉眼辨識圖片內容，使得就算透過人工檢查，也無法保證能夠完全刪除某些令人反感的圖片。

就在全球都因美國非裔男子佛洛依德（George Floyd）之死，而展開種族正義活動的同時，MIT也說，該資料集帶有偏見及貶義的圖像與字眼，將會造成社群的隔閡，也會替利用該資料集來訓練的AI系統帶來偏差，於是他們決定永久撤下該資料集，也要求AI社群不僅不應於未來使用它，也應刪除已下載的任何副本。

熱門新聞