《美國國家科學院院刊》(Proceedings of the National Academy of Sciences,PNAS)在本周出版了一篇研究報告,指出當他們檢驗了由Amazon、蘋果、Google、IBM及微軟等5家業者所打造的自動語音辨識(Automated Speech Recognition,ASR)系統之後,發現它們普遍存在著種族歧視,對白人語音的辨識準確度高於黑人。

自動語音辨識系統可將人們說出的話語轉成文字,它被應用在數位語音助理、字幕及免手(Hands Free)運算上,此次研究人員以五大科技業者的ASR系統,來辨識白人及非裔美國人的講話資料,並進行準確度的分析。

研究顯示,近年來由於深度學習技術的進步,再加上業者以大量的資料集來進行訓練,使得ASR系統有極大的改善,然而,相關工具對不同的人種並不平等。

他們以42位白人及73位黑人講者的語音紀錄進行實驗,發現五大系統都存在著種族差異,黑人的文字錯誤率為0.35,而白人則只有0.19。

追查之下才知道,差異來自於這些ASR系統所使用的聲學模型,顯示出系統很可能是被非裔美國人講英文時的語音或語調的特性搞糊塗了,而不是文法或詞彙的特性,而這些可能是源自於在訓練這些模型時,所使用的語音資料不足所致。

不過,這樣的缺陷也不難彌補,研究人員建議,其實只要使用包含非裔美國人的英文語音等更多樣化的訓練子集,就能降低ASR系統在準確度上的差異,也能確保ASR系統的兼容性。


Advertisement

更多 iThome相關內容