AWS研究團隊找到改善Alexa語音和聲音辨識的新方法

圖片來源:

AWS

AWS發表改善Alexa語音和聲音辨識的兩篇論文，皆是透過機器學習技術，來處理Alexa語音辨識的問題。

AWS第一個介紹的方法，是針對Alexa接收到來自電子媒體的干擾問題，像是電視或是收音機的聲音，AWS團隊開發出一套能夠更好地辨識媒體音頻的方法，且能夠長時間持續檢查音頻，幫助Alexa過濾掉非用戶語音的背景聲音訊號。

另一個方法則是利用外部資料集，透過半監督式學習法，來訓練出語音事件偵測模型，半監督式學習法是採用小型已標註的訓練資料集，來對照到大型未標註的資料集，尤其是，AWS團隊是用Tri-training的模式，也就是用三種不同的模型來訓練同一個任務，但是使用些微不同的資料集，再用最終輸出的結果，來校正半監督式學習常見的問題，因此，模型的錯誤最終會變改正。

AWS的媒體偵測系統是建立在對聲音特徵的觀察，不管電子媒體聲音的內容，系統能夠辨識出所有常見的媒體聲音，AWS的網路模型設計就是試圖要從特定的訓練樣本中萃取出聲音特徵，首先，先透過卷積式神經網路（CNN）作為特徵萃取器，接著，就像許多在口語理解領域的機器學習模型，AWS也是用遞歸神經網路（RNN），該網路能夠有序地處理序列輸入，而每一層網路的輸出都會影響著下一層的輸入。

熱門新聞