Google以豐富的對話情境資訊，改進客服中心AI的語音辨識能力

2018年Next大會上推出的人工智慧預包裝服務客服中心AI（Contact Center AI），現在Google透過增加人工智慧理解對話情境的方法，進一步強化虛擬代理人語音辨識的能力，用戶現在還可以更靈活地自訂定義SpeechContext類別，減少人工智慧對於文字概念混淆的問題。

Google提到，即便客服中心虛擬代理人的語音辨識精準度達90％，但是比起實驗室，實際使用環境以及雜訊的影響，在部分情況下，仍然會使得自動語音辨識的結果變得很糟，因此現在Google進一步更新客服中心AI所使用的技術，特別是在Dialogflow以及雲端語音轉文字兩服務，以提升辨識品質。

Dialogflow讓用戶能夠在網頁、行動應用程式或是熱門的傳訊平臺，建構對話服務，而這次更新，Google為Dialogflow加入了自動語音調適能力（Auto Speech Adaptation），以對話情境資訊，解決虛擬代理人混淆單字發音的問題。

由於許多單字的讀音很相似，在電話中可能無法很清楚傳遞，像是cheese和these的發音，還有可能把mail誤翻成male或nail，但是當虛擬代理人知道這些對話背景，發生在速食餐廳或是商品退貨時，便不容易混淆這些字。用戶只要在Dialogflow控制臺中，將自動語音調適功能打開，就能讓語音辨識準確度上升40％以上。

Google也改進了互動式語音應答（IVR）以及電話虛擬代理人，所使用的雲端語音轉文字基線模型，而這將會使語音轉錄的結果更好，Google以電話用語的常用短句最佳化了該模型，使得新模型的表現，在美國英文上的辨識準確度提高15％，再加上自動語音調適功能，還能進一步提升辨識的品質。

開發人員在使用雲端語音轉文字服務時，能使用SpeechContext參數來控制情境資訊，讓語音轉錄更加精確，以讓虛擬代理人更精準地辨識企業產品等特定名詞。

而現在Google在SpeechContext中新增類別，而預定義的類別則對應到流行或是通用的概念上，使用情境像是在數字溝通時，4個數字的組合可能代表年、時間或是金錢，而開發者可以在SpeechContext類別，調校整個自動語音辨識的單字列表，改善輸入語音的轉錄結果。

不過，Google也提到，使用SpeechContext這樣的工具，會增加部分短句被擷取的機率，這可能降低了語音有提及卻沒出現在轉錄文字上的錯誤，但同時也會增加語音未提及卻出現在轉錄文字的情形，自動語音調適的強度需要權衡結果進行調整，而SpeechContext的Boost功能解決了開發者這樣的煩惱，可以自動為使用案例調整語音調適的最佳強度。

過去雲端語音轉語音服務，處理語音只能以1分鐘為單位，而這對於需要較長時間轉錄文字的使用案例，像是會議、即時影片或是電話等是個大問題，現在Google將處理語音時間上限提高至5分鐘，而且API也允許開發人員開啟新的串流對話，來接續前一個串流對話，以做到無限時間的串流語音轉錄文字。

熱門新聞