圖片來源: 

AWS

Alexa是如何區別用戶和電視廣告中呼喊Alexa的聲音?AWS近日在自家部落格中公開這個謎題,AWS語音研究團隊收集了數千個廣告中提及Alexa的錄音檔,透過聲學指紋辨識技術,讓Alexa學會忽視這些廣告中提及Alexa的聲音,防止Alexa對電視中的廣告或是惡作劇做出回應。

AWS的方法是用典型的聲學指紋演算法,來配對預先輸入的語音錄音檔,該演算法是針對語音失真和干擾的問題所設計,就像那些電視主持人講的話、家中的環境音和麥克風的雜音, 若接收到的音檔經過系統辨識後,找到匹配項,系統則會忽略傳入的請求。

為了能夠準確的辨識出請求,AWS建立了多層的語音聲紋辨識系統,分別在多個階段建置辨識功能,首先在設備端上,大多數的Echo設備收到Alexa這個喚醒詞後,會先與廣告中提及Alexa的資料集進行比對,來檢查請求是否來自於廣告,但是由於設備CPU的限制,AWS只能在設備端檢查電視上廣告的音檔。

接著,AWS雲端則會以兩種方式檢查每個Alexa喚醒詞的請求,分別是來自於已知的媒體和未知的媒體,系統會用已知媒體的大量聲紋資料,針對請求的喚醒詞再次檢驗,第二種方式則是將在同一時間,2個以上不同用戶的裝置收到一樣指令的情況,認定為媒體事件。理想上,Echo裝置能夠用這些預存的聲紋辨識出來自媒體的音檔,不會喚醒Alexa,但是若Alexa真的被媒體的聲音喚醒,在雲端辨識認為為媒體事件後,裝置會快速且默默地關閉。

除了持續追蹤媒體新增的Alexa喚醒詞,來更新AWS的聲紋比對資料庫之外,AWS研究團隊正在改善聲紋辨識系統的準確率和效率,此外,AWS還正在研究可以用在區分媒體和人類聲音問題的相關技術,像是機器學習技術。


Advertisement

更多 iThome相關內容