Google發展極低位元率編解碼器Lyra，大幅提高低頻寬網路用戶語音通訊品質

Google開發了高品質低位元率的語音編解碼器Lyra，強調即便在速度緩慢的網路上，也能提供順暢的語音通訊體驗。Google在Lyra使用先進的機器學習技術，模型在經過數千小時的語音訓練後，能夠高效能的壓縮和傳輸語音訊號，進而在低頻寬中支援高音質語音通訊。

像是WebRTC這樣的即時通訊框架，以及壓縮技術的發展，使得聲音以及視訊電話越來越普及，數十年以來，編解碼器都是媒體應用程式的重要元件，讓需要消耗大量頻寬傳輸資料的應用程式，能夠更有效地傳輸資料，並且讓使用者可以隨時在各種網路環境中，進行高品質的通訊。

無論是視訊還是語音的編解碼器，其目標都是要提供更高的訊號品質，但使用更少的資料和達到更小的即時通訊延遲，Google提到，雖然視訊比音訊要占用更多的頻寬，但是現在視訊編解碼器，已經可以達到比部分高品質語音編解碼器還要低的位元率，透過結合低位元率視訊和語音編解碼器，就可以在低頻寬的網路中，提供高品質的視訊通話體驗。

不過音訊編解碼器的位元率越低，語音訊號的清晰度就越差，聲音也就越像機器人，為了解決這個問題，Google使用機器學習技術創建了Lyra。Lyra的概念很直覺，就是每40毫秒從語音中擷取特徵或是獨特的語音屬性，並在將其壓縮後進行傳輸。

這些特徵和屬性可以被用來重建語音訊號，傳統的參數編解碼器僅是簡單地將特徵擷取出來，並且直接在接收端重建訊號，雖然達到了低位元率的目的，但是聲音聽起來像機器人並不自然。而這個缺點也促使研究人員開發新一代音訊生成模型，來產生高品質的語音，像是DeepMind的WaveNet就是其中一種，目前Google語音通訊軟體Duo，就是將WaveNet實際用於真實世界的成果。

Google以這些生成模型為基準，創建能夠使用更少資料重建語音的新模型，與當今許多串流媒體和通訊平臺一樣，Lyra也使用波型編解碼器，來達到低位元率且高品質的聲音，但波型解碼器缺點在於，要達到高品質語音，必須要逐一壓縮和傳送每個訊號樣本，這可能需要稍高的位元率，但在許多的情況中，可能沒有必要達到如此自然的聲音。

生成模型還有另一個需要注意的缺點是，其具有較高的計算複雜度，而Lyra則選用循環生成模型WaveRNN來解決這個問題，該模型以較低的位元率運作，但是在不同頻率範圍平行生成多個訊號，在之後以特定的採樣頻率，結合到單一輸出訊號中。

這樣的設計讓Lyra不僅可以在雲端伺服器中執行，還可以在中階的手機上即時運作，處理延遲約為90毫秒，與其他傳統語音編解碼器相同。該生成模型經過數千小時的語音資料訓練，與WaveNet類似，可以精確地重建輸入的音訊。

現在基於WebRTC的VOIP應用程式中，最受廣泛使用的開源編解碼器便是Opus，在位元率32kbps的情況下，可以提供與原始音訊沒有區別的聲音品質，但是在頻寬受限制、僅能使用6kbps位元率的情況，聲音品質便會明顯下降，其他編解碼器包括Speex、MELP和AMR，雖然也都能以與Lyra相當的位元率運作，但是聲音皆會出現失真，導致變成機器人的聲音。

Lyra目前被設計成以3kbps的位元率運作，而且經過測試證實，在該位元率條件下運作，Lyra效能比其他編解碼器都還要好，且達到與Opus在8kbps位元率的聲音品質，可省下60％以上的頻寬。

Google提到，Lyra可被用於數十億新興市場的用戶，以較低的位元率編解碼器，提供更好的聲音品質，Lyra也可被用在雲端環境中，讓各種網路和裝置的用戶，能夠順暢的聊天，搭配最新的影像壓縮技術AV1，即便用戶使用56kbps數據機連上網際網路，也可以進行視訊聊天。

Google行動裝置語音聊天應用程式Duo，現在也使用Lyra，來提高在低頻寬網路上的語音品質，Google接下來還會繼續研究使用GPU和TPU來加速運算。

熱門新聞