DeepMind與牛津大學打造唇語AI系統，準確率更勝專家

研究人員以大量的BBC節目影片作為唇語AI系統的學習材料。

Alphabet旗下的人工智慧子公司DeepMind與牛津大學（University of Oxford）工程科學系的科學家們上周發表了一篇以人工智慧型（AI）協助辨識唇語的研究報告，顯示利用機器學習辨識唇語的準確率大勝專家。

研究人員先以大量的資料來訓練此一基於機器學習的AI系統，這批資料來自BBC於2010年1月到2015年12月所播出的6個電視節目，總長是5000小時，包含了11.8萬個句子，訓練完畢之後，再以BBC於今年3月到9月播出的節目進行測試。

其實有些影片的唇型及聲音並不同步，但研究人員假設多數影片與聲音是同步的，系統便能自動學習以校正聲音及嘴型的連結。

該AI系統與專家一起辨識從測試資料集中隨機選出的200個片段，根據New Scientist的報導，專家準確無誤辨識出每個字的機率只有12.4%，AI系統則達到46.8%。

研究人員認為人工智慧唇語系統可用來改善助聽器功能，或是在不能出聲的公開場合中進行聽寫，也可在吵雜的環境中辨識他人的言語。

熱門新聞