AWS用RNN打造文本正規化系統，降低辨識錯誤率和延遲性

圖片來源:

AWS

AWS用遞歸神經網路（RNN）來建立文本正規化系統，實驗結果顯示，相較於先前最佳的神經系統，採用RNN建立的文本正規化系統錯誤率降低了75％，另外處理指令延遲率減少63％，若將其他資訊加入考量，像是詞性、大寫等，錯誤率可以更進一步下降81%。

在對話式AI模型中，文本正規化（Text normalization）是重要的過程，舉例來說，若用戶對Alexa說：幫我預訂下午五點的吃飯，語音辨識器會將語音轉錄為下午五點，為了使系統能夠處理該指令，要把下午五點轉換為5:00PM，在生成語音的步驟又要轉換回來，AWS稱5:00PM轉換為下午五點的過程為文本正規化，反之則是逆向文本正規化。

在上述的例子中，Alexa系統中的時間表示法有兩種，必須要在處理指令的過程轉換格式，不只是時間，其他類型的表達法也需要類似的正規化處理，像是日期、電子郵箱地址、號碼和縮寫，為了實現英文的文本正規化，Alexa現在仰賴數千個手寫的規則，隨著Alexa與用戶互動的範圍越廣，制定規則成為很容易出錯的一環，且Alexa支援的語言越來越多，不太可能重寫這些規則，因此，AWS最近採用RNN來建立文本正規化系統。

輸入字詞資料的模糊性使得文字正規化變得相當重要，例如，根據上下文語意，Dr.這個縮寫可能代表博士，也可能是路名，2/3可能是三分之二，也有可能代表2月3日，文字正規化系統在處理這種字詞之前，必須考慮上下文，過去處理該問題最佳的方法就是用神經模型，搭配固定長度字詞的文本分析器，掃描整句文字，讓模型決定如何處理中心詞，不過這樣的方法相當耗時，AWS則是用注意機制來測量上下文，針對每個輸入的文字，注意力機制可以決定哪些字會影響語意。

不過，以句子為基礎，搭配注意力機制的文本正規化系統實驗結果並不理想，AWS的解決方案是將輸入資料的句子，在送至神經網路處理之前，先拆分成子字元（subword），相同地，也訓練模型產生子字元，再透過一個獨立的演算法，將網路輸出的字元拼成完整的字詞，該方法的優點是能夠減少神經網路要學會的輸入資料數量，也有助於模型處理從未見過的輸入詞。

熱門新聞