圖/Line臺灣
Line臺灣在開發者大會上發布,三大Line CLOVA AI產品正式中文化落地臺灣。一是CLOVA OCR,將推出完整產品功能,主張無論是特定表格或是證件中的文字內容,都能以OCR快速識別;CLOVA Chatbot則是推出雲端SaaS、地端On-Premise與混合雲部署版本,來滿足企業應用需求;今年更新推CLOVA Note服務,不只要將中文語音轉文字,還要區分出不同的發言者,未來除了可作爲個人助理,也要提供Web service串接到視訊會議來做記錄,這項服務預計在今年稍晚推出。
CLOVA OCR:因應不同辨識情境,提供一般與專用文字辨識模型
Line CLOVA團隊Aaron Wu首先揭露CLOVA OCR完整產品功能。Line的OCR產品可分為一般情境的文字辨識模型(General Model)與專門情境辨識模型(Specialized Model),除了經過一年的中文化調整與優化,Line今年也在一般情境辨識模型中,推出新功能Table Extractor,讓用戶在掃描文件或圖片上的表格時,能夠用Table Extractor來辨識,透過將JSON File的參數,對應到每個字元在表格上的欄位,來快速擷取圖片上的表格與其欄位中的文字。
由於在進行拍攝、截圖或掃描時,圖片的角度或光線都會影響OCR辨識的結果,Line因此新增了以AI自動調整角度的功能,能辨識出直式的表格文字為橫式等。Aaron Wu指出,這項功能在日本推出後大獲好評,比如在疫情期間,用戶需要將疫苗預約單的內容輸入系統來進行疫苗預約,透過訓練出OCR辨識模型,並結合自動調整辨識角度的功能,就能加速資訊擷取的效率,甚至連揉成一團的皺巴巴紙張,都能辨識出紙張上的文字資訊,尤其受到銀髮族的歡迎。
CLOVA OCR能自動調整角度來進行OCR辨識。
經過模型訓練後,連一團皺巴巴的紙張,都可以進行OCR辨識。
另一項專門情境辨識模型,則分為兩種類別,一是證件式的模型辨識,包括身分證、健保卡、護照等,雖然格式較固定,但因背景花紋或表格框線的樣式不同,還是需要透過模型訓練來強化辨識能力。二是非證件式的模型辨識,屬於內容相近但格式呈現不同者,比如名片、收據、信用卡、薪資單等,這類格式位置不固定者,就得透過足量資料來進行模型訓練,才能正確捕捉各種欄位資訊。
針對General Model與Specialized Model兩類模型的訓練,CLOVA OCR更提供了Template Builder工具,提供一個易於操作的介面,讓用戶能透過拖拉的方法,選擇需要辨識的區塊、定位並命名,更提供了足量的標註工具,包括複寫框、多重字元框、Check Box等,以供用戶更精準定義表格並擷取資訊。同時,CLOVA OCR也能串接不同工具或技術,比如自動標註功能(Auto Tagging)、知識圖譜或是RPA流程等,來建立端到端自動化流程。
Template Builder工具提供了許多標註工具,包括複寫框、多重字元框、Check Box等,以供用戶更精準定義表格。
CLOVA Chatbot:Chatbot Bulider讓非開發者快速上手,更提供三種部署方式
落地臺灣的CLOVA Chatbot也同樣提供了Chatbot Bulider工具,降低訓練人機對話系統的繁複流程,讓用戶只須準備好由機器人回答的問題與答案,以及相應的訓練資料,就可藉由圖形化介面訓練出專屬的Chatbot模型,並應用到Line官方帳號上,連不具程式開發技能的用戶都能上手。
為了滿足各種不同用戶的需求,CLOVA Chatbot提供三種部署方式,其一是雲端SaaS解決方案,透過雲端平臺提供所有的Chatbot模型引擎,日本與韓國均有大量應用案例;其二是地端On-Premise版本,主要針對有落地需求、考量資料安全性的企業用戶,可透過SI廠商將服務導入企業本地端來使用;其三則是專為臺灣企業設計的混合雲架構(Hybrid),結合雲端與地端的優勢,讓用戶一方面可維持隱私資料落地的安全性,一方面也可以降低運算資源的硬體成本投入。
Aaron Wu分享,Line客服官方帳號也實際應用了CLOVA Chatbot,2021年正式導入後,已經有8成以上的資料交由CLOVA Chatbot處理,平均每日可以接收超過5,000則以上的詢問訊息,更能維持90%以上的模型精準度。在這項Chatbot服務的設計上,Line引進了情境式對話功能,引導使用者逐步釐清問題,找到需要的答案,來提升滿意度。
而且,透過CLOVA Chatbot的自動回覆與資料搜集,持續分析客服訊息後,Line發現超過兩成以上使用者問題,都跟帳號轉移相關,因此,Line也計畫在今年第一季推出「帳號移動健檢」功能,透過CLOVA Chatbot的進階功能,將Chatbot串接後端帳號系統,在經過用戶同意的情況下,從後臺自動讀取用戶資料,拋轉到Line內部伺服器後,再以Flex Message格式呈現在對話視窗中,來與用戶確認帳戶移轉的相關資訊。
比如透過Chatbot先跟用戶確認電話號碼、Email以及是否已經設定密碼,也會確認帳號轉移的手機號碼是否一致,並提醒用戶在資料轉移之前,是否已經先備份資料,以此來幫助用戶更精準、快速的解決問題。在與用戶確認資訊的過程中,Line也會使用CLOVA Chatbot的隱藏式遮蔽功能,將敏感性的資料遮蓋。
CLOVA Note將於今年上線,可將語音轉為文字、更能區別不同發言者
另一項Line臺灣將在今年稍晚推出的AI新服務,則是CLOVA Note,來轉錄語音進行各式各樣的記錄。CLOVA Note使用了兩項主要的語音技術,一為語音辨識(Speech Recognition),將語音轉換為文字,二是說話者辨別(Speaker Diarization)技術,來分辨不同的發言者。
在語音辨識的技術中,Line採用的並非傳統語音辨識(ASR)模型的訓練方法。Aaron Wu指出,傳統的ASR模型訓練方法,會先透過聲學模型(Acoustic Model),將聲音轉換為最小的聲音單位,再透過Phoneme-to-grapheme模型,將每個聲音的最小單位轉換為字串,最後再透過語言模型(Language Model),將每個字元組合成一個完整的句子。但如此一來,每個模型都得分開訓練,也需要不同的訓練素材與參數調教,「這對ML來說是一個阻礙。」
因此,Line選擇透過自家研發出來的NEST引擎,這是一個以神經網絡架構出的端到端語言辨識模型,不需要訓練三個模型將語音轉為文字,而是能直接將語音輸入神經網絡來進行訓練,不僅能突破對Free Conversation的辨識,也強化了抗噪的功能。
而在說話者辨識的模型中,則是運用每一個文字的字元字段,進行上下文比對,再透過判斷上下文之間的關係,以辨識出不同的說話者。
Aaron Wu表示,CLOVA Note除了可以作為個人助理,也能作為Web service服務串接到視訊會議軟體當中,來進行會議記錄,同時區分發言的對象。韓國在上線後,約有9成用戶以此進行會議記錄,臺灣今年也會上線中文服務。
熱門新聞
2024-11-10
2024-11-10
2024-11-11
2024-11-10
2024-11-11
2024-11-08
2024-11-11