Google更新雲端語音轉文字服務，聽寫電話的錯誤率減少54%

圖片來源:

Google

繼上個月發表雲端文字轉語音（Cloud Text-to-Speech）服務之後，Google在周一（4/9）更新了雲端語音轉文字（Cloud Speech-to-Text）服務，提供全新的影片及電話轉錄模型，也新增了自動化標點符號功能。相較於原本的電話模型，新的強化版電話轉錄模型（enhanced phone_call model）讓語音辨識的錯誤率減少了54%。

Google於2016年發表的Cloud Speech-to-Text原名為Cloud Speech API，可辨識包括中文在內的逾120種語言，本周則是該服務建立以來最大規模的改版，它提供了4種客製化模式，包括命令與搜尋（command_and_search）、電話（phone_call）、影片（video）與預設（default），其中，電話模型適用於基於8khz取樣率記錄的電話內容，而預設模型則多用在音質較好、時間較長、取樣率高於16khz以上的音頻，使用者可依照不同的使用情境選擇適用的模型，以順利將語音轉換成文字。(來源：Google)

Google Cloud AI產品經理Dan Aharon表示，有許多雲端供應商利用客戶的請求來改善相關服務，但基於資料及隱私保護的立場，Google並不打算採用這樣的作法，取而代之的是推出業界首創的「選擇加入計畫」（ opt-in program），讓客戶主動提供資料供Google紀錄與分析，而首個成品就是強化版電話轉錄模式，該計畫成功地讓Cloud Speech-to-Text的電話轉錄服務減少了54%的錯誤。

至於新的影片模式則可用來將影片中的語音轉換成文字，或是轉錄同時有多人開講的語音，該模式所使用的機器學習技術與YouTube自動化字幕背後的技術雷同，相較於原本的預設模式，影片模式的轉錄錯誤率也降低了64%。

不管是強化版的語音模式或影片模式現在都只支援英文，預計很快就會擴張至其它語言。

除了全新的語音及影片模式之外，新版的Cloud Speech-to-Text還準備在將語音轉成文字之後，自動加入標點符號，以讓文字更容易閱讀，目前該模式仍屬於測試階段，可提供逗點、句號或問號等標點符號的建議。

除了影片模式每15秒的收費為0.012美元之外，其它模式的費用皆為每15秒0.006美元，為了推廣全新的影片模式，截至今年5月31日可享用每15秒0.006美元的優惠價。

熱門新聞