雞尾酒效應挑戰達成，Google打造出在吵雜環境能辨識特定人聲的模型

圖片來源:

Miki Rubinstein

雞尾酒效應一直是語音辨識研究的問題之一，對人類而言，在吵雜的環境中，將聆聽的注意力放在特定的人聲上並不困難，但是對語音辨識仍然是一大挑戰，因為模型必須先將語音分離成單獨的語音來源，才能分開辨識不同的人聲。

Google打造了深度學習視聽模型，來隔離單一的語音訊號和混合的聲音，像是在吵雜的環境中，或有有多個不同人聲的環境，增強特定對象的人聲，將其他聲音去除，讓模型專注於辨識單一特定的人聲。

Google表示，這個模型最大的突破在於，可以將輸入的影片分離成視覺和聽覺特徵，透過視覺特徵來辨識當下正在說話的人，經過比對之後，判斷出影片中正在說話的人，簡單來說，模型透過嘴巴動作和產生的聲音，來建立關連，協助辨認影片中哪個部分的聲音與哪一個人對應，經過聲音分離模型之後，會輸出個別的聲音資訊。

為了訓練分離聲音的模型，Google收集了Youtube平臺上大約10萬支演講的影片，從這些影片中，擷取較清楚的語音且只有單一演講者出現在畫面中的影片，像是沒有背景音樂、觀眾聲音或是其他演講者的影片，經過過濾後，大約用了2,000小時的影片資料來訓練模型。

接著，Google透過這些資料產生合成雞尾酒派對（Synthetic cocktail parties），將Google語音資料庫AudioSet和多個人臉影片混合到資料集，再利用這些數據來訓練卷積神經網路模型，把合成雞尾酒派對的資料集分解成獨立的語音流，來訓練模型分離不同的聲音，辨識獨立的人聲。

熱門新聞