為什麼Alexa聽到廣告中自己的名字不會被喚醒？

圖片來源:

AWS

Alexa是如何區別用戶和電視廣告中呼喊Alexa的聲音？AWS近日在自家部落格中公開這個謎題，AWS語音研究團隊收集了數千個廣告中提及Alexa的錄音檔，透過聲學指紋辨識技術，讓Alexa學會忽視這些廣告中提及Alexa的聲音，防止Alexa對電視中的廣告或是惡作劇做出回應。

AWS的方法是用典型的聲學指紋演算法，來配對預先輸入的語音錄音檔，該演算法是針對語音失真和干擾的問題所設計，就像那些電視主持人講的話、家中的環境音和麥克風的雜音，若接收到的音檔經過系統辨識後，找到匹配項，系統則會忽略傳入的請求。

為了能夠準確的辨識出請求，AWS建立了多層的語音聲紋辨識系統，分別在多個階段建置辨識功能，首先在設備端上，大多數的Echo設備收到Alexa這個喚醒詞後，會先與廣告中提及Alexa的資料集進行比對，來檢查請求是否來自於廣告，但是由於設備CPU的限制，AWS只能在設備端檢查電視上廣告的音檔。

接著，AWS雲端則會以兩種方式檢查每個Alexa喚醒詞的請求，分別是來自於已知的媒體和未知的媒體，系統會用已知媒體的大量聲紋資料，針對請求的喚醒詞再次檢驗，第二種方式則是將在同一時間，2個以上不同用戶的裝置收到一樣指令的情況，認定為媒體事件。理想上，Echo裝置能夠用這些預存的聲紋辨識出來自媒體的音檔，不會喚醒Alexa，但是若Alexa真的被媒體的聲音喚醒，在雲端辨識認為為媒體事件後，裝置會快速且默默地關閉。

除了持續追蹤媒體新增的Alexa喚醒詞，來更新AWS的聲紋比對資料庫之外，AWS研究團隊正在改善聲紋辨識系統的準確率和效率，此外，AWS還正在研究可以用在區分媒體和人類聲音問題的相關技術，像是機器學習技術。

熱門新聞