圖片來源: 

AWS

AWS用遞歸神經網路(RNN)來建立文本正規化系統,實驗結果顯示,相較於先前最佳的神經系統,採用RNN建立的文本正規化系統錯誤率降低了75%,另外處理指令延遲率減少63%,若將其他資訊加入考量,像是詞性、大寫等,錯誤率可以更進一步下降81%。

在對話式AI模型中,文本正規化(Text normalization)是重要的過程,舉例來說,若用戶對Alexa說:幫我預訂下午五點的吃飯,語音辨識器會將語音轉錄為下午五點,為了使系統能夠處理該指令,要把下午五點轉換為5:00PM,在生成語音的步驟又要轉換回來,AWS稱5:00PM轉換為下午五點的過程為文本正規化,反之則是逆向文本正規化。

在上述的例子中,Alexa系統中的時間表示法有兩種,必須要在處理指令的過程轉換格式,不只是時間,其他類型的表達法也需要類似的正規化處理,像是日期、電子郵箱地址、號碼和縮寫,為了實現英文的文本正規化,Alexa現在仰賴數千個手寫的規則,隨著Alexa與用戶互動的範圍越廣,制定規則成為很容易出錯的一環,且Alexa支援的語言越來越多,不太可能重寫這些規則,因此,AWS最近採用RNN來建立文本正規化系統。

輸入字詞資料的模糊性使得文字正規化變得相當重要,例如,根據上下文語意,Dr.這個縮寫可能代表博士,也可能是路名,2/3可能是三分之二,也有可能代表2月3日,文字正規化系統在處理這種字詞之前,必須考慮上下文,過去處理該問題最佳的方法就是用神經模型,搭配固定長度字詞的文本分析器,掃描整句文字,讓模型決定如何處理中心詞,不過這樣的方法相當耗時,AWS則是用注意機制來測量上下文,針對每個輸入的文字,注意力機制可以決定哪些字會影響語意。

不過,以句子為基礎,搭配注意力機制的文本正規化系統實驗結果並不理想,AWS的解決方案是將輸入資料的句子,在送至神經網路處理之前,先拆分成子字元(subword),相同地,也訓練模型產生子字元,再透過一個獨立的演算法,將網路輸出的字元拼成完整的字詞,該方法的優點是能夠減少神經網路要學會的輸入資料數量,也有助於模型處理從未見過的輸入詞。

熱門新聞

Advertisement