圖片來源: 

Miki Rubinstein

Google近日用深度學習打造出可以在有許多聲音的複雜環境下,將特定人聲分離,單獨辨識每個人聲音的模型,在有背景聲音或是環境噪音的情況下,也能將背景音的影響降到最低,辨識出主要講話的人聲。

雞尾酒效應一直是語音辨識研究的問題之一,對人類而言,在吵雜的環境中,將聆聽的注意力放在特定的人聲上並不困難,但是對語音辨識仍然是一大挑戰,因為模型必須先將語音分離成單獨的語音來源,才能分開辨識不同的人聲。

Google打造了深度學習視聽模型,來隔離單一的語音訊號和混合的聲音,像是在吵雜的環境中,或有有多個不同人聲的環境,增強特定對象的人聲,將其他聲音去除,讓模型專注於辨識單一特定的人聲。

Google表示,這個模型最大的突破在於,可以將輸入的影片分離成視覺和聽覺特徵,透過視覺特徵來辨識當下正在說話的人,經過比對之後,判斷出影片中正在說話的人,簡單來說,模型透過嘴巴動作和產生的聲音,來建立關連,協助辨認影片中哪個部分的聲音與哪一個人對應,經過聲音分離模型之後,會輸出個別的聲音資訊。

為了訓練分離聲音的模型,Google收集了Youtube平臺上大約10萬支演講的影片,從這些影片中,擷取較清楚的語音且只有單一演講者出現在畫面中的影片,像是沒有背景音樂、觀眾聲音或是其他演講者的影片,經過過濾後,大約用了2,000小時的影片資料來訓練模型。

接著,Google透過這些資料產生合成雞尾酒派對(Synthetic cocktail parties),將Google語音資料庫AudioSet和多個人臉影片混合到資料集,再利用這些數據來訓練卷積神經網路模型,把合成雞尾酒派對的資料集分解成獨立的語音流,來訓練模型分離不同的聲音,辨識獨立的人聲。

熱門新聞

Advertisement