Meta發布最新語音辨識技術成果,這個被稱為AV-HuBERT(Audio-Visual Hidden Unit BERT)的語言模型,是一個先進的自我監督框架,可同時利用視覺和聽覺訊號來理解語音內容。研究人員提到,這是第一個利用未標記資料,連結語音和嘴唇動作建模的系統,且只要使用十分之一的訓練資料,就可有效提升語音辨識準確率。

目前人工智慧被廣泛地用於語音辨識和理解任務,開發像是語音助理或是聽障應用,但研究人員提到,這些語言理解系統,常在最需要的情境中無法正常運作,像是多人同時說話,或是有大量背景噪音時,即便是複雜的噪音抑制技術,也難以克服沙灘上的海浪聲,和車水馬龍街頭市場的吵雜聲。

而之所以在這些情況下,人們可以比人工智慧更好地理解語音,原因之一便是人類不只使用耳朵,還會同時用上眼睛,像是當有人的嘴巴在動,便會直覺認為聲音來自於那個人。透過這樣的啟發,Meta開發最新的對話式人工智慧系統,使系統能夠在對話中,關聯看到和聽到的內容,就像人類一樣。

目前的語音辨識系統,都只採用音訊輸入,因此必須要猜測有幾個說話者,或者是否包含背景噪音等問題,而AV-HuBERT與人類一樣採用多模式學習,透過結合音訊和嘴唇動作提示,來感知和學習語言。研究人員使用公共LRS3和VoxCeleb錄影資料集來訓練模型,而由於多了視覺線索,因此AV-HuBERT可以有效地捕捉輸入串流的細微差別,可大幅減少用於預訓練的資料量。

研究人員提到,一旦預訓練模型學習了結構與相關性,便只需要少量標記資料,就可以完成對特定任務或不同語言的模型訓練。實驗證實,AV-HuBERT能夠獲得高品質的語音辨識效果,當語音和背景噪音一樣大聲的情況下,目前最先進的模型AV-ASR,即便在使用433小時的標記資料訓練後,仍然有25.5%的錯誤率,但是AV-HuBERT卻只有3.2%。

也就是說,AV-HuBERT每聽到30個單字,僅會犯1個錯誤,研究人員表示,當噪音和要轉錄的語音一樣大聲時,純音訊語音辨識模型不可能知道,哪一個才是轉錄的目標,而相比之下,AV-HuBERT只轉錄可見的說話者語音,因此WER(Word Error Rate)只有3.9%,而純音訊辨識軟體WER則高達37.3%。

當標記資料只有30小時的低資源配置,在各種分貝的雜音、語音和音樂等噪音干擾下,AV-HuBERT與沒有預訓練的純語音辨識模型相比,絕對WER減少51.4%。而且當系統可以看到說話者,但無法聽到聲音的情況,過去最先進的模型,在經過31,000小時的轉錄視訊資料訓練後,可以在標準LRS3基準資料集上,達到33.6%的WER,而AV-HuBERT大幅超越了這項成果,僅使用30小時的標記資料,以及少一個量級的未監督影像資料,就可以達到28.6%的WER,而且在使用433小時的標記資料後,可以達到26.9%的WER,刷新目前紀錄。

AV-HuBERT不僅能應付棘手轉錄場景的對話式人工智慧系統,由於訓練所需要的監督資料要少得多,因此還可以用來開發少資源的語言模型。另外,AV-HuBERT能夠從語音和嘴唇動作中學習,所以也可用來開發更具包容性,適用於語言障礙者的應用。

因為AV-HuBERT能夠捕捉聲音和嘴巴的精細關聯,也有助於偵測深度偽造,和其他被操縱,用來誤導觀眾的內容,從另一方面來看,AV-HuBERT還能夠被用於在虛擬實境中的替身角色,實現逼真的嘴唇動作,提供更真實的感覺。


熱門新聞

Advertisement