改善人臉辨識系統偏見，IBM釋出100萬張已標註的臉部圖像資料集

圖片來源:

IBM

為了改善既有AI人臉辨識存在的偏見問題，IBM釋出臉部多樣性資料集Diversity in Faces（DiF），來加速公平且準確的人臉辨識系統研究，該資料集包含100萬張已標註的人臉圖像，IBM預計提供該資料集給全球的研究社群，研究人員按照申請步驟提出請求後，IBM將會進行批准。而麻省理工大學的計算機科學與AI實驗室，也在前一天發布正在改善人臉辨識演算法的消息，新演算法會先對資料集進行篩選，確保訓練資料包含不同種族和膚色的數據，企圖減少訓練資料對人臉辨識系統產生影響。

目前人臉辨識系統存在著偏見的問題，去年6月，麻省理工學院多媒體實驗室曾測試了微軟、IBM和中國的曠視科技開發的人臉辨識系統，測試發現這些系統辨識淺色人種性別的能力，大過於辨識深色人種的性別，而辨識度最差的則是深色人種的女性，MIT多媒體實驗室認為，人臉辨識技術可能因為所使用的資料集和建立演算法的條件，而造成偏差。

IBM釋出的DiF資料集圖片是來自於公開的YFCC-100M資料集，利用在人臉研究領域行之有年的10個編碼方案（coding scheme）為圖片標註，包含客觀的人臉辨識方法和主觀的預測，客觀的人臉辨識方法是一些面孔特徵，像是頭部長度、鼻子長度、額頭高度、臉部的對稱比例，而人類主觀的預測則是年齡、性別、姿勢等，IBM相信，藉由釋出100萬標註的資料集，能夠加速人臉辨識系統資料集的覆蓋率和多樣性，減少AI系統的偏見，而這次釋出的資料集只是第一步。

IBM希望，DiF資料集能夠成為研究人員著手打造無偏見人臉辨識技術的開端，初步的分析顯示，相比過去的資料集，DiF資料集提供了更分佈更平均且廣泛的人臉圖像，除此之外，DiF資料集也能夠讓研究人員更近一步理解人臉特徵，用來研究人臉辨識技術。

熱門新聞