NAVER CCAI技術總監 都炅兌 (攝影/王宏仁)

你若曾在2019年11月底,打電話到日本大手町這家牛排館「俺のGrill&Bakery」預約,那個甜美回答問題的女聲,其實是AI,這是日本第一款餐廳電話訂位服務的AI語音助手。不只可以預約時間,安排用餐位置,還能直接回答最新菜色的問題,一點都不輸真人接聽的服務。

LINE韓國母公司NAVER的CCAI(Contact Center AI)部門技術總監都炅兌,正是一手打造出這款語音AI的負責人。他在2019年LINE開發者大會中,首次公開了背後的關鍵設計。

Google在2018年5月的I/O大會上,最引人注目的是AI打給餐廳訂位的那一通電話。因為那不是人而是AI語音助理Google Duplex代向餐廳預約的電話。不同於Google的消費者角度設計,NAVER則是要從中小企業的角度出發,要用AI來當餐廳的助手,在餐廳最忙碌的用餐時間代接電話,多勻出一個人手來幫忙上菜。這就是都炅兌團隊發起了這個電話訂位AI專案(專案代號DUET,後來正式命名為AiCall)的初衷。

NAVER原本就自行研發出了一款知名的智慧喇叭Clova WAVE,擁有自己的AI團隊和NLU技術,都炅兌回憶,NAVER也差不多約在2年前,開始意識到電話服務才是語音助理的未來,而且觀察到,餐廳電話訂位服務將成為語音服務市場變革的關鍵,所以,才發起了DUET專案。

但是,一開始,仍有不少人質疑這個專案,都炅兌最常被問的問題是,手機上網這麼普及了,這年頭還有人打電話到餐廳訂位嗎?後來真的進行調查後發現,比例之高令人意外,高達65%的預約訂位,仍舊是透過電話,其餘3成5才是網站或其他方式。

「一般人自以為的假設,往往不一定是事實。」都炅兌回憶:「要切入新領域,得採取不一樣的方法,必須面對使用者,靠資料來決策,這正是LINE跟NAVER所擅長的跨界秘訣。」

餐廳電話訂位AI和要克服的挑戰

多回合NLU技術和8K音訊語音辨識,就是電話訂位AI最關鍵的技術。─── NAVER CCAI技術總監 都炅兌 (攝影/王宏仁)

所以,在開發這套AI訂位系統之前,都炅兌先進行了大量使用者研究,歸納出幾個發現,首先是人們不擅長回答電話。人為錯誤是電話溝通出錯的主因,尤其是沒有訓練的工讀生或新員工,常會搞錯預約,再加上餐廳希望降低電話預約的成本。

第二個發現是,溝通模式有差異。NAVER已有一套熱賣的語音助理產品,但是,透過電話與AI對話的互動型態,和與智慧喇叭的對話模式,兩者截然不同。「語音助理是命令和控制型(Command and Control)的對話模式,但電話則是建構式的對話(Build-up)。」都炅兌比較,語音助理就是簡單的一個口令,一個動作,但在電話中,AI得來回詢問顧客,甚至是追問,才能完成預約任務。

甚至,電話預約的對話,也跟Chatbot聊天機器人有很大的不同,都炅兌指出,聊天機器人會提供視覺化呈現,使用者能看到完整對話歷程,還可以搭配不同的互動模式,例如互動按鈕、文字框等,但在電話上,只能透過聲音,而且顧客很難清楚記得說過的每一個字。這些差異,都是AI電話訂位服務在互動介面和技術上要解決的課題。

如何設計出擬人化的電話對話UX?

尤其在UX設計上,得考慮到整體的對話情境和脈絡來設計,都炅兌稱為對話空間(Conversation Space)的設計,會將一段對話區分為開場,主體和結語三個階段,從接通到掛斷之間的持續時間則稱為時間空間(Time Space)。

另外,電話對話UX的設計還有幾個特性,沒有喚醒指令,不像智慧喇叭得由用戶先講出喚醒詞來啟動,其次,對話都得由AI程式先帶頭發言,而顧客若有提問,通常都是再確認餐廳的能力,例如是否可提供嬰兒座椅,是否有素食等,最後一個重點是,得隨時偵測顧客即將結束對話的特徵(Preclosing signal,預結束訊號), 例如當顧客講出「謝謝,我知道了」就是一個預結束特徵,就可以讓AI進行總結式的結束對話,例如提醒預約時間,期待對方光臨等等。

要打造出流暢回應的AI,還要更進一步了解談話性對話的特徵,顧客不只會期待一種自然語言地、持續性的對話,他特別提醒:「時間是VUI(Voice User Interface,語音互動介面)必須考慮的關鍵要素。」

為了讓對話聽起來自然,AiCall考慮了3種時間條件,重疊性(Overlap)、平衡性(Balance)和沉默程度(Silence)。在對話來回過程中,要拿捏一來一回的時間分配,避免AI搶話。其次,語句長度是對話的基礎,一次講出來的語句,不宜太久或過短,而且要依據合適的語句時間程度,重新修改要表達的內容,要兼顧表達詳細資訊,又不會太花時間的尺度拿捏。

最後一項,都炅兌指出:「沉默程度的設計也很重要,這是智慧喇叭不會考慮的事,智慧喇叭總是沉默的等待。但在電話對話中,一方的沉默代表了某種意義或態度,」AI得留意使用者的停頓不語,若沉默超過一定時間就得發話提醒,將使用者拉回對話中。

四層式對話設計框架

考量這些電話對話特徵,AiCall建立了一套對話設計框架(Conversation Deign Framework),一層包一層,最外是任務(Task),其內包括了多個活動(Activity),每個活動各自有一套對話序列(Sequence),這個順序則可能由多個對話回合(Turn)來組成。

例如,一個預約訂位的任務,包括了3個活動:開場、排程(Scheduling)和確認。而在排程這項活動中,還可分出兩套對話序列,一是預約時間安排,和預約人數安排兩種,各會有不同的對話問答序列內容。

在活動這個層級上,常見的活動,例如像是開場對話、排程、查詢空位、取消預約、預約再確認、重新排程、結束對話等,在不同的任務,有類似功能的活動,就可以重複使用。都炅兌還採取了模組化的設計,並透過網絡圖來建立不同活動之間的關連,可依據不同任務的需求,彈性組合這些活動。

另外,都炅兌指出,對話UX設計還有一個重點,要避免採取「失敗訊息的回應」(Failure)設計。若無法辨識顧客的問題,或確認顧客的內容,可以再問一次,或反問提出建議,盡量不要設計成「這個指令無效」這類會終止對話的回應方式。「打電話過程要互相建構出對話。」他提醒。像AiCall若真的遇到無法處理的電話,只要發生了三次AI辨識失敗的情況,就會自動將電話轉給餐廳真人來接聽。

兩大關鍵技術:多回合NLU和8K音訊語音辨識

在技術上,AiCall採取也是常見的語音辨識和語音生成流程,顧客電話中的聲音串流,透過閘道器進入到後端伺服器,透過語音辨識引擎,轉換成文字,再透過NLU引擎來辨識文字中的意圖,再來確定要如何產生回應的文字內容,接著透過語音生成引擎,將文字轉換成語音,並組合成聲音串流,同樣透過閘道器回傳到顧客的電話上。

不過,這個流程還要考慮到真實世界電話通話特性來進行調整,例如要支援不同類型的電話傳輸技術,像PSTN、VoIP或最新的WebSocket傳輸方式。

另外,在真實世界的電話是全雙向通話,雙方可以同時雙向講話和收聽,就得時時偵測使用者是否出現搶話的情況,所以,都炅兌還增加了一個對話控制器,來判斷是否需要中斷原有的對話序列,採取另一個回應方式。

不只如此,電話聲音也很難保證每次的品質,可能對方使用一般市內電話,通話品質很差,因此,AI語音辨識引擎做到連8K超低品質音訊都要能分辨才行,後來,NAVER還重新設計了新的語音辨識引擎。「電話訂位AI最關鍵的技術就是多回合NLU技術和8K音訊辨識技術。」都炅兌指出。

另外,NAVER在語音生成引擎的設計上,除了考慮自然對話的音調和聲音角色的音調(如男聲或女聲),都炅兌還特別設計了一個「聲音個性」(persona of voice)的機制,可以針對不同的對話情境,來安排一段句子音調起伏的呈現方式,例如疑問句就是一種情境,會在句尾讓音調上揚。

都炅兌也錄製了不同情境的音調語氣和語速,再轉換成不同類型的聲音個性,例如平靜語意、搶話語氣、說故事似的語氣、大聲說話、遲疑口吻等,甚至還考慮了搭配手勢動作時,說話音調還會有不同的變化。

除此之外,都炅兌的團隊還設計了好幾種不同功能的通話AI模型,例如用來預測使用者言外之意的語意線索模型、可考慮上下文語意的多回合對話NLU模型、任務轉換判斷模型、插話時機判斷模型等。

在DUET團隊中,不只有負責對話流程設計的UX設計師,還有一組UX工程師,要依據UX設計師提供的AI對話UX最佳流程,來開發系統。

「在AI對話中,更容易察覺到網路延遲的影響。」他說,所以,UX工程師下足功夫,如改善同步I/O、GPU優化、網路優化、串流優化,甚至精簡對話內容,不需講出完整的句子,只用關鍵詞來表達意思,就是為避免造成延遲。

NAVER CCAI技術總監都炅兌秀出的圖表,透露了正在研究非口語互動型態。 (攝影/王宏仁)

當DUET專案團隊花了大把時間,完成了語音訂位AI雛形,展開使用者實測時發現,「設計和真實總有很大落差,實際通話過程,用戶總是任意切換話題。」AI得判斷要不要繼續?問了一半的任務,等下如何接續再問?從哪一個對話流程切入,或者如何重問一次,都是挑戰。

後來,都炅兌決定,重新設計軟體系統和對話UX,並打造了一個UX設計師和UX工程師的共用介面,方便他們快速進行雛形展示來改進產品。

「我們的目標,不是讓AI語音聽起來跟真人一樣,而是聚焦對話本身,希望對餐廳真有幫助。」都炅兌再三強調。

AiCall目前只能支援日語和韓語,也只在日本市場推出。但,都炅兌表示,技術上,未來也有機會支援英文或中文,甚至,「這樣的電話預約AI,日後也有機會運用到其他類型或產業的電話預約應用上。」

儘管沒有透露太多,但在都炅兌特別秀給記者們的使用者行為研究圖表上,透露了NAVER正在調查,手勢動作等非口語互動型態對講電話的影響,「手勢會影響講電話的語速、腔調,對使用者行為有更多了解,研究其他互動型態帶來的侷限,也是為日後發展新產品先做準備。」都炅兌眨了眨眼笑著說。

CTO小檔案

都炅兌

NAVER CCAI技術總監

學經歷:韓國成均館大學電腦工程系畢業。2004年進入三星,一待14年,從資深軟體工程師做起,負責開發三星公共GIS系統,後來更成為三星敏捷核心團隊技術首席,後期更在三星內研究AI技術,2018年進入LINE韓國母公司NAVER,在CCAI(Contact Center AI)部門擔任技術總監。

 

公司檔案

NAVER

● 成立時間:1999年6月

● 主要產品:以搜尋引擎起家,目前是韓國最大搜尋引擎和第一大入口網站服務,更推出LINE即時通訊平臺,並逐漸跨入電商、內容、娛樂和金融產業。

● 主要海外市場:日本、美國、法國、中國、越南、臺灣、泰國和印尼

● 網址:www.naver.com

● 年營收:2017年約4兆韓元

● 員工數:2017年約2,793人

公司大事紀

● 1999年6月:推出搜尋引擎服務

● 2000年:進軍日本市場

● 2011年:推出LINE手機通訊軟體

● 2013年:成立LINE Plus開始負責全球海外事業,並將NAVER日本分公司更名成為LINE公司

● 2016年:LINE同時在紐約證交所和東京證交所掛牌上市

● 2017年:成立NAVER Labs,開始轉型研發型企業


Advertisement

更多 iThome相關內容