2018年Next大會上推出的人工智慧預包裝服務客服中心AI(Contact Center AI),現在Google透過增加人工智慧理解對話情境的方法,進一步強化虛擬代理人語音辨識的能力,用戶現在還可以更靈活地自訂定義SpeechContext類別,減少人工智慧對於文字概念混淆的問題。

Google提到,即便客服中心虛擬代理人的語音辨識精準度達90%,但是比起實驗室,實際使用環境以及雜訊的影響,在部分情況下,仍然會使得自動語音辨識的結果變得很糟,因此現在Google進一步更新客服中心AI所使用的技術,特別是在Dialogflow以及雲端語音轉文字兩服務,以提升辨識品質。

Dialogflow讓用戶能夠在網頁、行動應用程式或是熱門的傳訊平臺,建構對話服務,而這次更新,Google為Dialogflow加入了自動語音調適能力(Auto Speech Adaptation),以對話情境資訊,解決虛擬代理人混淆單字發音的問題。

由於許多單字的讀音很相似,在電話中可能無法很清楚傳遞,像是cheese和these的發音,還有可能把mail誤翻成male或nail,但是當虛擬代理人知道這些對話背景,發生在速食餐廳或是商品退貨時,便不容易混淆這些字。用戶只要在Dialogflow控制臺中,將自動語音調適功能打開,就能讓語音辨識準確度上升40%以上。

Google也改進了互動式語音應答(IVR)以及電話虛擬代理人,所使用的雲端語音轉文字基線模型,而這將會使語音轉錄的結果更好,Google以電話用語的常用短句最佳化了該模型,使得新模型的表現,在美國英文上的辨識準確度提高15%,再加上自動語音調適功能,還能進一步提升辨識的品質。

開發人員在使用雲端語音轉文字服務時,能使用SpeechContext參數來控制情境資訊,讓語音轉錄更加精確,以讓虛擬代理人更精準地辨識企業產品等特定名詞。

而現在Google在SpeechContext中新增類別,而預定義的類別則對應到流行或是通用的概念上,使用情境像是在數字溝通時,4個數字的組合可能代表年、時間或是金錢,而開發者可以在SpeechContext類別,調校整個自動語音辨識的單字列表,改善輸入語音的轉錄結果。

不過,Google也提到,使用SpeechContext這樣的工具,會增加部分短句被擷取的機率,這可能降低了語音有提及卻沒出現在轉錄文字上的錯誤,但同時也會增加語音未提及卻出現在轉錄文字的情形,自動語音調適的強度需要權衡結果進行調整,而SpeechContext的Boost功能解決了開發者這樣的煩惱,可以自動為使用案例調整語音調適的最佳強度。

過去雲端語音轉語音服務,處理語音只能以1分鐘為單位,而這對於需要較長時間轉錄文字的使用案例,像是會議、即時影片或是電話等是個大問題,現在Google將處理語音時間上限提高至5分鐘,而且API也允許開發人員開啟新的串流對話,來接續前一個串流對話,以做到無限時間的串流語音轉錄文字。


Advertisement

更多 iThome相關內容