Alexa總是聽錯你說的嗎?AWS最近透過新方法來改良自然語言模型,使Alexa的語音辨識錯誤率降低15%,AWS研究團隊也將該研究成果發表於IEEE口語科技研討會,自然語言模型是語音自動辨識系統的關鍵元件,自然語言模型會根據統計的相似性,擷取特定字串的文字,因此,該模型能夠辨識相同聲音序列不同的表達,當模型理解上下文的語境時,語音辨識系統的準確率就會比較高。

當語音服務加入新功能時,會建立一組新的上下文內容,並更新相關的自然語言模型,但是建立自然語言模型需要有大量的訓練資料,而新功能通常沒有相關的訓練資料,因此,多半是透過正式的語法來產生簡單的語句,這樣的方法能夠產生足夠的訓練資料,但是非常耗時,所以替代方案則是用語法輸出的隨機樣本當作訓練資料。

AWS透過一套特殊的演算法,能夠用語法規則的圖像特徵分析成特定的數學表徵(representation),並直接計算語法產生任何字串的相關性,此外,AWS也直接透過語法將現有的語言模型,整合至新的語言模型中,如此一來,就不會降低已建立的模型效能。在研究實驗中,AWS研究團隊針對相同語法的輸出,進行採樣並建立語言模型,透過新方法建立的語言模型,能夠讓語音辨識系統錯誤率下降15%。

在自然語言模型的研究中,一個語法會包含掌管替換單詞和片語的規則清單,例如,「我想要」的片語可以與「需要」或是「想要」等單詞替換,其他規則則是單詞連接實體名稱,像是歌名會與「播放」連結在一起,一般來說,自然語言研究人員會用有限狀態轉換器(finite-state transducers,FSTs),用節點或是圓圈與線來描繪語法關係的網路,AWS則是用這些計算出來的概率來建立語言模型。

首先,AWS建立的演算法會先辨識經過FSTs編譯過文字內容的每個字串,再分析每個字串在網路圖中的路徑,利用概率和這些路徑來計算特定字串的頻率,接著,為了整合到現有的模型中,AWS用機器學習系統挑選出兩個模型中最佳化的結果,最後,AWS利用3種不同的自然語言理解功能來評估模型,分別是查詢股票價格、查詢食譜和烹飪指示,和預定機票,結果顯示透過該方法針對語法的複雜性,預定機票的能力提升了15%。


Advertisement

更多 iThome相關內容