Google更新雲端語音轉文字(Speech-to-Text)API,新增支援的語言以及增強對方言的辨識能力,以擴展支援的市場範圍。新支援的語言為緬甸語、愛沙尼亞語、烏茲別克語、旁遮普語、阿爾巴尼亞語、馬其頓語和蒙古語等,訓練資源相對於主流語言不足的7種語言,使整體雲端語音轉文字API支援的語言,從64種上升為71種,把方言也算進去的話,從120種來到了127種。

Google語音轉文字功能以API的形式提供,讓用戶對各種長度的語音,或是串流音訊,將語音轉成文字,而企業也可以自定義功能,配置轉錄的過程。這次的更新,Google還強化了其三項功能,語音適應(Speech Adaptation)、電話通話模型(Telephony Model)以及說話者自動分段標記(Speaker Diarization)對方言的辨識能力。

語音適應可以讓企業調整服務產生的文字,零售商可以訓練語音轉文字功能,強化辨識客戶服務來電中難以翻譯的產品名稱,甚至是轉換各種時間表達方法成為數字格式(下圖),另外,用戶也能配置API,控制其回傳資訊的方式,以大幅改進特定使用案例的語音辨識品質。現在語音適應功能新提供68種語言和方言,包括國語(Mandarin)、日語和西班牙語等。

說話者自動分段標記是一種可區分一段語音中不同說話者的技術,將音訊檔案中的單詞和語句分配給不同說話者,讓用戶不僅可以理解語音內容,還能知道是由誰說的。而這項技術可以讓用戶更簡單地為影片增加字幕。這次的更新加入了對10種方言的支援,包括英國英文、西班牙文和國語。

另外,正確的標點符號也是轉錄品質的重點,Google的自動標點符號功能,會試圖模仿用戶他們寫下所說話語的方式,這將有助於提升文字的可讀性。這次更新Google新增了對德語、法語和日語等18種方言的支援。

Google提到,這次的更新擴展了語音轉文字可服務的對象,新增超過2億人,而功能強化也可為原本的服務對象,提供品質更好的轉錄功能。

熱門新聞

Advertisement