Google擴展雲端語音轉文字服務新增支援7種語言

Google更新雲端語音轉文字（Speech-to-Text）API，新增支援的語言以及增強對方言的辨識能力，以擴展支援的市場範圍。新支援的語言為緬甸語、愛沙尼亞語、烏茲別克語、旁遮普語、阿爾巴尼亞語、馬其頓語和蒙古語等，訓練資源相對於主流語言不足的7種語言，使整體雲端語音轉文字API支援的語言，從64種上升為71種，把方言也算進去的話，從120種來到了127種。

Google語音轉文字功能以API的形式提供，讓用戶對各種長度的語音，或是串流音訊，將語音轉成文字，而企業也可以自定義功能，配置轉錄的過程。這次的更新，Google還強化了其三項功能，語音適應（Speech Adaptation）、電話通話模型（Telephony Model）以及說話者自動分段標記（Speaker Diarization）對方言的辨識能力。

語音適應可以讓企業調整服務產生的文字，零售商可以訓練語音轉文字功能，強化辨識客戶服務來電中難以翻譯的產品名稱，甚至是轉換各種時間表達方法成為數字格式（下圖），另外，用戶也能配置API，控制其回傳資訊的方式，以大幅改進特定使用案例的語音辨識品質。現在語音適應功能新提供68種語言和方言，包括國語（Mandarin）、日語和西班牙語等。

說話者自動分段標記是一種可區分一段語音中不同說話者的技術，將音訊檔案中的單詞和語句分配給不同說話者，讓用戶不僅可以理解語音內容，還能知道是由誰說的。而這項技術可以讓用戶更簡單地為影片增加字幕。這次的更新加入了對10種方言的支援，包括英國英文、西班牙文和國語。

另外，正確的標點符號也是轉錄品質的重點，Google的自動標點符號功能，會試圖模仿用戶他們寫下所說話語的方式，這將有助於提升文字的可讀性。這次更新Google新增了對德語、法語和日語等18種方言的支援。

Google提到，這次的更新擴展了語音轉文字可服務的對象，新增超過2億人，而功能強化也可為原本的服務對象，提供品質更好的轉錄功能。

熱門新聞