圖片來源: 

Google

繼上個月發表雲端文字轉語音(Cloud Text-to-Speech)服務之後,Google在周一(4/9)更新了雲端語音轉文字(Cloud Speech-to-Text)服務,提供全新的影片及電話轉錄模型,也新增了自動化標點符號功能。相較於原本的電話模型,新的強化版電話轉錄模型(enhanced phone_call model)讓語音辨識的錯誤率減少了54%。

Google於2016年發表的Cloud Speech-to-Text原名為Cloud Speech API,可辨識包括中文在內的逾120種語言,本周則是該服務建立以來最大規模的改版,它提供了4種客製化模式,包括命令與搜尋(command_and_search)、電話(phone_call)、影片(video)與預設(default),其中,電話模型適用於基於8khz取樣率記錄的電話內容,而預設模型則多用在音質較好、時間較長、取樣率高於16khz以上的音頻,使用者可依照不同的使用情境選擇適用的模型,以順利將語音轉換成文字。(來源:Google)

Google Cloud AI產品經理Dan Aharon表示,有許多雲端供應商利用客戶的請求來改善相關服務,但基於資料及隱私保護的立場,Google並不打算採用這樣的作法,取而代之的是推出業界首創的「選擇加入計畫」( opt-in program),讓客戶主動提供資料供Google紀錄與分析,而首個成品就是強化版電話轉錄模式,該計畫成功地讓Cloud Speech-to-Text的電話轉錄服務減少了54%的錯誤。

至於新的影片模式則可用來將影片中的語音轉換成文字,或是轉錄同時有多人開講的語音,該模式所使用的機器學習技術與YouTube自動化字幕背後的技術雷同,相較於原本的預設模式,影片模式的轉錄錯誤率也降低了64%。

不管是強化版的語音模式或影片模式現在都只支援英文,預計很快就會擴張至其它語言。

除了全新的語音及影片模式之外,新版的Cloud Speech-to-Text還準備在將語音轉成文字之後,自動加入標點符號,以讓文字更容易閱讀,目前該模式仍屬於測試階段,可提供逗點、句號或問號等標點符號的建議。

除了影片模式每15秒的收費為0.012美元之外,其它模式的費用皆為每15秒0.006美元,為了推廣全新的影片模式,截至今年5月31日可享用每15秒0.006美元的優惠價。

熱門新聞

Advertisement