Google開發了高品質低位元率的語音編解碼器Lyra,強調即便在速度緩慢的網路上,也能提供順暢的語音通訊體驗。Google在Lyra使用先進的機器學習技術,模型在經過數千小時的語音訓練後,能夠高效能的壓縮和傳輸語音訊號,進而在低頻寬中支援高音質語音通訊。

像是WebRTC這樣的即時通訊框架,以及壓縮技術的發展,使得聲音以及視訊電話越來越普及,數十年以來,編解碼器都是媒體應用程式的重要元件,讓需要消耗大量頻寬傳輸資料的應用程式,能夠更有效地傳輸資料,並且讓使用者可以隨時在各種網路環境中,進行高品質的通訊。

無論是視訊還是語音的編解碼器,其目標都是要提供更高的訊號品質,但使用更少的資料和達到更小的即時通訊延遲,Google提到,雖然視訊比音訊要占用更多的頻寬,但是現在視訊編解碼器,已經可以達到比部分高品質語音編解碼器還要低的位元率,透過結合低位元率視訊和語音編解碼器,就可以在低頻寬的網路中,提供高品質的視訊通話體驗。

不過音訊編解碼器的位元率越低,語音訊號的清晰度就越差,聲音也就越像機器人,為了解決這個問題,Google使用機器學習技術創建了Lyra。Lyra的概念很直覺,就是每40毫秒從語音中擷取特徵或是獨特的語音屬性,並在將其壓縮後進行傳輸。

這些特徵和屬性可以被用來重建語音訊號,傳統的參數編解碼器僅是簡單地將特徵擷取出來,並且直接在接收端重建訊號,雖然達到了低位元率的目的,但是聲音聽起來像機器人並不自然。而這個缺點也促使研究人員開發新一代音訊生成模型,來產生高品質的語音,像是DeepMind的WaveNet就是其中一種,目前Google語音通訊軟體Duo,就是將WaveNet實際用於真實世界的成果。

Google以這些生成模型為基準,創建能夠使用更少資料重建語音的新模型,與當今許多串流媒體和通訊平臺一樣,Lyra也使用波型編解碼器,來達到低位元率且高品質的聲音,但波型解碼器缺點在於,要達到高品質語音,必須要逐一壓縮和傳送每個訊號樣本,這可能需要稍高的位元率,但在許多的情況中,可能沒有必要達到如此自然的聲音。

生成模型還有另一個需要注意的缺點是,其具有較高的計算複雜度,而Lyra則選用循環生成模型WaveRNN來解決這個問題,該模型以較低的位元率運作,但是在不同頻率範圍平行生成多個訊號,在之後以特定的採樣頻率,結合到單一輸出訊號中。

這樣的設計讓Lyra不僅可以在雲端伺服器中執行,還可以在中階的手機上即時運作,處理延遲約為90毫秒,與其他傳統語音編解碼器相同。該生成模型經過數千小時的語音資料訓練,與WaveNet類似,可以精確地重建輸入的音訊。

現在基於WebRTC的VOIP應用程式中,最受廣泛使用的開源編解碼器便是Opus,在位元率32kbps的情況下,可以提供與原始音訊沒有區別的聲音品質,但是在頻寬受限制、僅能使用6kbps位元率的情況,聲音品質便會明顯下降,其他編解碼器包括Speex、MELP和AMR,雖然也都能以與Lyra相當的位元率運作,但是聲音皆會出現失真,導致變成機器人的聲音。

Lyra目前被設計成以3kbps的位元率運作,而且經過測試證實,在該位元率條件下運作,Lyra效能比其他編解碼器都還要好,且達到與Opus在8kbps位元率的聲音品質,可省下60%以上的頻寬。

Google提到,Lyra可被用於數十億新興市場的用戶,以較低的位元率編解碼器,提供更好的聲音品質,Lyra也可被用在雲端環境中,讓各種網路和裝置的用戶,能夠順暢的聊天,搭配最新的影像壓縮技術AV1,即便用戶使用56kbps數據機連上網際網路,也可以進行視訊聊天。

Google行動裝置語音聊天應用程式Duo,現在也使用Lyra,來提高在低頻寬網路上的語音品質,Google接下來還會繼續研究使用GPU和TPU來加速運算。

熱門新聞

Advertisement