圖片來源: 

AWS

AWS發表改善Alexa語音和聲音辨識的兩篇論文,皆是透過機器學習技術,來處理Alexa語音辨識的問題。

AWS第一個介紹的方法,是針對Alexa接收到來自電子媒體的干擾問題,像是電視或是收音機的聲音,AWS團隊開發出一套能夠更好地辨識媒體音頻的方法,且能夠長時間持續檢查音頻,幫助Alexa過濾掉非用戶語音的背景聲音訊號。

另一個方法則是利用外部資料集,透過半監督式學習法,來訓練出語音事件偵測模型,半監督式學習法是採用小型已標註的訓練資料集,來對照到大型未標註的資料集,尤其是,AWS團隊是用Tri-training的模式,也就是用三種不同的模型來訓練同一個任務,但是使用些微不同的資料集,再用最終輸出的結果,來校正半監督式學習常見的問題,因此,模型的錯誤最終會變改正。

AWS的媒體偵測系統是建立在對聲音特徵的觀察,不管電子媒體聲音的內容,系統能夠辨識出所有常見的媒體聲音,AWS的網路模型設計就是試圖要從特定的訓練樣本中萃取出聲音特徵,首先,先透過卷積式神經網路(CNN)作為特徵萃取器,接著,就像許多在口語理解領域的機器學習模型,AWS也是用遞歸神經網路(RNN),該網路能夠有序地處理序列輸入,而每一層網路的輸出都會影響著下一層的輸入。


Advertisement

更多 iThome相關內容