AWS利用喚醒詞語音資料過濾背景音，使Alexa辨識錯誤率降低15%

圖片來源:

AWS

AWS發布一項提升Alexa語音辨識率的技術，透過喚醒詞聲音快照，並將接隨後的語音與之比對，接收到的語音若與喚醒詞吻合，則將該語音視為Alexa要接收的語句，若不相符，則視為背景噪音。

與其額外訓練另一個神經網路，來區別用戶的聲音和背景噪音，AWS將喚醒詞比對機制整合至現有的標準自動語音辨識系統中，接著，將整個模型進行訓練，來辨識系統接收到的語音，在實驗中，這項方法能夠將語音辨識錯誤率減少15％。

AWS如何實現這項技術？首先，AWS團隊建立了2種不同的神經網路架構，2種網路架構都是Seq2seq的變化版，加入了注意力（attention）機制，也就是保留了輸入序列的中間輸出結果，訓練一個模型來針對這些輸入進行選擇性的學習，該網路架構都是encoder-decoder框架，編譯器會將語音輸入資料整理成固定長度的向量序列，通常向量會比原本輸入資料更小，而解碼器則會將該向量轉換為輸出，整個網路是一起訓練的，因此，編譯器可以學習如何產生適合解碼器任務的總結向量。

最後，再透過注意力機制來告訴解碼器在生成輸出結果時，要注意編譯器產生的向量中哪一個元素，在Seq2seq的模型中，注意力機制的決定通常都是根據現有編譯和解碼器網路的狀態。

AWS對於基本的網路模型做了一些調整，在注意力機制中加入了一個輸入資料，除了從現有的編譯器和解碼網路中接收資料，AWS調整過的注意力機制還接收了與喚醒詞相符的原始資料，在訓練的過程中，注意力機制會自動學習需要特別注意哪個喚醒詞的聲音特徵，用於辨識隨後的語音資料。

在另一個實驗中，AWS訓練了一套更明確的模型，來強調與喚醒詞相符的輸入語音資料，首先，AWS加入了一個直接比對喚醒詞和隨後語音輸入資料的機制，接著，利用比對的結果當作學習遮蔽語音向量機制的輸入資料，原本AWS預期該方法的結果會更勝於第一種方式，但是結果顯示，遮蔽方式的模型效果稍差，只將語音辨識的錯誤率降低13％，AWS懷疑是因為遮蔽編譯器輸出的結果，只有根據編碼器網路的狀態來決定，而注意力機制的模型則是參考了編譯器和解碼器的狀態，因此，未來，AWS預計遮蔽機制也要將解碼器的網路狀態納入考量。

熱門新聞