圖片來源: 

AWS

AWS發布一項提升Alexa語音辨識率的技術,透過喚醒詞聲音快照,並將接隨後的語音與之比對,接收到的語音若與喚醒詞吻合,則將該語音視為Alexa要接收的語句,若不相符,則視為背景噪音。

與其額外訓練另一個神經網路,來區別用戶的聲音和背景噪音,AWS將喚醒詞比對機制整合至現有的標準自動語音辨識系統中,接著,將整個模型進行訓練,來辨識系統接收到的語音,在實驗中,這項方法能夠將語音辨識錯誤率減少15%。

AWS如何實現這項技術?首先,AWS團隊建立了2種不同的神經網路架構,2種網路架構都是Seq2seq的變化版,加入了注意力(attention)機制,也就是保留了輸入序列的中間輸出結果,訓練一個模型來針對這些輸入進行選擇性的學習,該網路架構都是encoder-decoder框架,編譯器會將語音輸入資料整理成固定長度的向量序列,通常向量會比原本輸入資料更小,而解碼器則會將該向量轉換為輸出,整個網路是一起訓練的,因此,編譯器可以學習如何產生適合解碼器任務的總結向量。

最後,再透過注意力機制來告訴解碼器在生成輸出結果時,要注意編譯器產生的向量中哪一個元素,在Seq2seq的模型中,注意力機制的決定通常都是根據現有編譯和解碼器網路的狀態。

AWS對於基本的網路模型做了一些調整,在注意力機制中加入了一個輸入資料,除了從現有的編譯器和解碼網路中接收資料,AWS調整過的注意力機制還接收了與喚醒詞相符的原始資料,在訓練的過程中,注意力機制會自動學習需要特別注意哪個喚醒詞的聲音特徵,用於辨識隨後的語音資料。

在另一個實驗中,AWS訓練了一套更明確的模型,來強調與喚醒詞相符的輸入語音資料,首先,AWS加入了一個直接比對喚醒詞和隨後語音輸入資料的機制,接著,利用比對的結果當作學習遮蔽語音向量機制的輸入資料,原本AWS預期該方法的結果會更勝於第一種方式,但是結果顯示,遮蔽方式的模型效果稍差,只將語音辨識的錯誤率降低13%,AWS懷疑是因為遮蔽編譯器輸出的結果,只有根據編碼器網路的狀態來決定,而注意力機制的模型則是參考了編譯器和解碼器的狀態,因此,未來,AWS預計遮蔽機制也要將解碼器的網路狀態納入考量。


Advertisement

更多 iThome相關內容