Google AI語音服務大更新，不僅降價還新增7種語言和31種聲音

圖片來源:

Google

Google更新文字轉語音和語音轉文字服務，除了優化語音辨識模型、新支援7種語言和31種聲音之外，也調整了語音服務的價格，在特定的應用情境中，用戶最多可以省下約50%的支出，而Google也提供每月前60分鐘免費的語言轉文字服務。

Google指出，語音辨識和生成技術在人機互動的應用中非常關鍵，要讓人機互動更加自然、簡單且普遍，並不容易，即便使用準確度高達90%的語音辨識模型，還是很難真正達到有效的對話，由於許多企業的語音辨識模型都是要在電話中運行，受到噪音的干擾，產生的文字資訊讓模型難以處理，Google於去年4月針對這種應用場景推出電話和影片的語音轉文字服務，經過不斷優化，現在電話的文字錯誤已降低了62%，而影片的語音轉文字模型錯誤率也降低了64%，除此之外，影片的語音轉文字模型在辨識多個說話者的情境中，像是會議或是廣播，也有很好的表現。

電話的語音轉文字模型過去只開放給參與Google收集語音資料計畫的成員使用，現在，任何企業都可以使用這個優化過的模型，若用戶選擇允許Google收集資料，則可以折抵一些費用，除了上述兩個語音轉文字的模型之外，Google這次也正式推出多聲軌的語音辨識服務，協助語音轉文字API區別多個不同的語音，像是對話中的不同人，Google指出，該服務對會議分析，或是有多人參與的對話都相當有幫助。

在價格方面，為了吸引更多用戶，Google將影片語音轉文字模型收費調降了25%，而在標準和影片模型服務中，選擇加入資料收集計畫的用戶，收費價格會減少33%，因此，若使用影片模型且選擇加入收集資料計畫的用戶，將能夠減少約50%的支出。

此外，支援的語言也是企業使用語音轉文字辨識模型的一大考量，現在Google新增了7個語言和方言，包含丹麥語、葡萄牙語、俄語、波蘭語、斯洛伐克語、烏克蘭語和挪威語，加上上述新增的語言，目前總共支援21種語言，這些新增的語言都還是測試版。在語音生成模型方面，Google的語音生成系統WaveNet也新增了31種聲音，目前總共有包含21種語言的57種聲音。

熱門新聞