繼Google在上個月推出透過DeepMind高傳真人聲合成技術WaveNet開發的雲端文字轉語音服務之後,9日宣布更新雲端語音轉文字服務(Cloud Speech-to-Text),不但加入針對特定模式的語音辨識模型,也提高了辨識的準確度,還提供自動加入標點符號的功能,該服務兩年前剛推出時名為Cloud Speech API。

雲端語音轉文字服務是在2016年推出,在大約一年前推出正式版,該服務每半年的使用量都是雙倍成長,這次Google更新了語音轉文字服務,並加入新功能,包括電話和影片模式的語音轉文字服務,目前這兩個模型可支援英文,未來還會陸續支援其他語言。

目前語音轉文字服務支援多項功能,舉例來說,該服務內建預先建立的語音辨識模型,來增加文稿的準確度,還有自動加入標點符號的功能,來增加文稿可讀性,該服務還有一項透過標註和分類語音轉文字改善準確率的機制,用戶可以標註像是購物的語音、籃球比賽電視節目等類別,來描述語音的主題,增加該服務的準確度,此外,因為該服務目前是正式版,提供99.9%可靠性的SLA保證。

由於語音辨識有多種不同的模式,包含影片、電話或是人機命令式的互動,這次的更新將加入針對不同模式的客製化模型,像是針對電視轉播籃球比賽的語音辨識,講話的人可能會超過4個,背景的雜音會有觀眾的歡呼聲、音樂、籃球或是跳躍的聲音,語音辨識的長度也可能長達2個小時以上。

以處理電話語音為例,Google以往會先將打進來的電話轉錄到針對電話語音優化過的模型,現在則是可以讓企業自行選擇最適合的模型,而不用仰賴自動推薦的模型。

Google表示,許多雲端廠商會用語音數據來優化自家的產品,Google為了保障用戶的隱私權,避免這樣的做法,而是讓用戶選擇是否要分享語音數據,由於還是有用戶期望Google透過真實的數據,提供更準確的語音辨識模型。

因此,Google建立了另一套模型Enhanced phone_call,透過自願提供真實數據的用戶資料來改善模型,自願加入這項計畫的用戶可以使用該模型之外,也能使用其他自願用戶優化過的模型。Google指出,與一般的模型相比,Enhanced phone_call模型的語音辨識錯誤率減少了54%。

除此之外,Google也推出了針對影片語音辨識模型,該模型經過多個管道和人聲的優化,透過類似於YouTube自動產生字幕的機器學習技術,優化過後該模型錯誤率相比以往下降了64%。

最後,Google團隊最近建立長短期記憶(Long Short-Term Memory,LSTM)神經網路,來改善長篇語音轉文字的自動下標點符號功能,可以自動提供逗號、句號、問號等,目前還是測試版。


Advertisement

更多 iThome相關內容