Google為影片、電話和虛擬助理量身打造語音辨識模型，提高語音轉文字準確性

繼Google在上個月推出透過DeepMind高傳真人聲合成技術WaveNet開發的雲端文字轉語音服務之後，9日宣布更新雲端語音轉文字服務（Cloud Speech-to-Text），不但加入針對特定模式的語音辨識模型，也提高了辨識的準確度，還提供自動加入標點符號的功能，該服務兩年前剛推出時名為Cloud Speech API。

雲端語音轉文字服務是在2016年推出，在大約一年前推出正式版，該服務每半年的使用量都是雙倍成長，這次Google更新了語音轉文字服務，並加入新功能，包括電話和影片模式的語音轉文字服務，目前這兩個模型可支援英文，未來還會陸續支援其他語言。

目前語音轉文字服務支援多項功能，舉例來說，該服務內建預先建立的語音辨識模型，來增加文稿的準確度，還有自動加入標點符號的功能，來增加文稿可讀性，該服務還有一項透過標註和分類語音轉文字改善準確率的機制，用戶可以標註像是購物的語音、籃球比賽電視節目等類別，來描述語音的主題，增加該服務的準確度，此外，因為該服務目前是正式版，提供99.9％可靠性的SLA保證。

由於語音辨識有多種不同的模式，包含影片、電話或是人機命令式的互動，這次的更新將加入針對不同模式的客製化模型，像是針對電視轉播籃球比賽的語音辨識，講話的人可能會超過4個，背景的雜音會有觀眾的歡呼聲、音樂、籃球或是跳躍的聲音，語音辨識的長度也可能長達2個小時以上。

以處理電話語音為例，Google以往會先將打進來的電話轉錄到針對電話語音優化過的模型，現在則是可以讓企業自行選擇最適合的模型，而不用仰賴自動推薦的模型。

Google表示，許多雲端廠商會用語音數據來優化自家的產品，Google為了保障用戶的隱私權，避免這樣的做法，而是讓用戶選擇是否要分享語音數據，由於還是有用戶期望Google透過真實的數據，提供更準確的語音辨識模型。

因此，Google建立了另一套模型Enhanced phone_call，透過自願提供真實數據的用戶資料來改善模型，自願加入這項計畫的用戶可以使用該模型之外，也能使用其他自願用戶優化過的模型。Google指出，與一般的模型相比，Enhanced phone_call模型的語音辨識錯誤率減少了54%。

除此之外，Google也推出了針對影片語音辨識模型，該模型經過多個管道和人聲的優化，透過類似於YouTube自動產生字幕的機器學習技術，優化過後該模型錯誤率相比以往下降了64%。

最後，Google團隊最近建立長短期記憶（Long Short-Term Memory，LSTM）神經網路，來改善長篇語音轉文字的自動下標點符號功能，可以自動提供逗號、句號、問號等，目前還是測試版。

熱門新聞