Google發布端到端語音翻譯模型，還能保留原本的聲音特徵

圖片來源:

Google

Google發布能夠直接將一種語言的語音，轉換為另一種語言語音的模型Translatotron，透過單一的注意力Seq2seq網路來直接翻譯語音，中間不需要借助文字資料的轉換，由於避開了分階段式的轉換步驟，因此，該模型具有較高的效能，且降低了語音辨識和翻譯過程中的錯誤風險，直接將原本的語言轉換為目標語言的語言，也能夠更好地處理語句中不需要翻譯的詞句，像是名稱或是特定名詞。

語音之間的翻譯系統的目的，是為了幫助講不同語言的人溝通，這類的翻譯系統通常會包含三個不同的技術，分別為自動語音辨識、機器翻譯和文字轉語音生成技術，將一個語言的語音轉為文字後，透過機器翻譯轉換成另一個語言，再用語音生成技術創造目標語言的語音，Google AI研究院從2016年開始打造Translatotron模型，該模型是端到端的語音翻譯模型，研究結果發現，直接翻譯語音的方式，比起過去分段翻譯的方式更為有效。

Translatotron模型是透過Seq2seq網路，輸入資料為原本語言的聲譜圖（spectrograms），產生翻譯成目標語言內容的聲譜圖，另外Translatotron模型還加入了兩個分別訓練過的網路：將輸出聲譜圖轉換為時域波形的神經聲碼器（vocoder）、在生成翻譯語音時用來維持原始聲音特徵的編碼器，使得翻譯語音聽起來更自然，在訓練的過程中，生成目標語言的聲圖譜時，Seq2seq模型利用多任務目標學習法，同時預測來源和目標文本，不過，過程中沒有任何中間的文字當作參考資料。

熱門新聞