Google開源可即時產生精確文字的AI模型LaserTagger

Google研究人員開發了一種人工智慧文字編輯模型，可以預測編輯操作序列，把來源文字轉換成為目標文字，Google表示，LaserTagger是一種精確不易出錯的文字產生方法，且比過去的方法更易於訓練，改進後的模型架構執行速度也更快。

Seq2seq（Sequence-to-sequence）是一種用來處理語言的機器學習方法，可以應用在段落融合、文字摘要和語法錯誤糾正等文字編輯工作。Google提到，Seq2seq模型的發明，改變了機器翻譯的領域，因為其改進的模型結構，並以非監督式預訓練使用大量未標註文字的特性，讓神經網路方法輸出的品質得以大幅提升。

不過，Seq2seq仍然有不少需要克服的缺點，最主要有三點，該方法會生成輸入所不支援的文字，也就是產生幻覺（Hallucination），而且需要大量的訓練資料，輸出才能達到可接受的品質，還有Seq2seq產生文字的方式為逐字產生，因此不可避免地，文字產生的速度較慢。

Google最新有關人工智慧文字處理的論文，發表最新的LaserTagger模型，改善Seq2seq的三項主要缺點，該模型的特色就像是名稱LaserTagger中的雷射一樣，速度和精確度的表現非常好，LaserTagger不會從頭開始產生文字，而是透過預測一系列編輯操作產生最終文字，而非實際預測單詞來產生輸出。

Google提到，許多文字產生的工作，其輸出與輸入有極高的重疊，例如在檢測和糾正錯誤，或是融合句子的時候，通常大部分的輸入文字都不需要更動，只需要修改一小部分。LaserTagger產生的編輯操作，例如Keep是複製單詞到輸出，而Delete是刪除單詞，Keep-AddX/Delete-AddX則是在標記的單詞前增加片語X，並且選擇性刪除標記單詞。

由於需要添加的單詞和片語，均來自於最佳化的字彙列表，該字彙列表需要符合字彙數量最小化，且能最大化訓練範例的數量，Google提到，限制字彙表就能縮小輸出的決策空間，便能避免模型隨意添加字詞，減少幻覺產生的機率，因此LaserTagger比Seq2seq基準更不容易產生幻覺。

另外，在資料效率方面，即便只使用數百或是數千個範例訓練，LaserTagger也能產生合理的結果，而Seq2seq至少需要數萬個訓練範例，才能產生與之相比的結果。LaserTagger預測速度快上不少，是Seq2seq基準的100倍，因此更適合用在即時應用上。

Google提到，之所以LaserTagger的研究很重要，是因為在大規模應用上，LaserTagger的優勢也能隨之放大，部分服務能用來透過縮短回應長度，以改進語音答案的組成，而LaserTagger較快的預測速度，可以在不明顯增加延遲的情況下，加入到更多現有的技術堆疊中，提供更多元的服務。更好的資料效率，就代表可以為更多資源稀缺的語言使用者提供服務。

熱門新聞