Google在2月的時候,發表最新的音訊編解碼技術研究,其新開發的Lyra是一款極低位元率的音訊編解碼器,可讓低頻寬網路用戶也能享有良好的通訊品質,而現在Google宣布以Apache授權許可開源Lyra,讓更多開發者可以在自己的通訊專案中使用Lyra,或是發展其他應用。

由於COVID-19疫情的關係,通訊服務的重要性大幅提高,而Google新發展的音訊編解碼技術,能夠應用在遠端工作或是低頻寬的環境,改善語音通話品質。Google表示,Lyra是一個革命性的音訊編解碼器,其使用機器學習技術來提供高品質的語音通話。

Lyra的架構分為編碼器和解碼器兩部分,當使用者對著電話講話時,編碼器會從語音中擷取特殊的屬性特徵,並在壓縮後經過網路傳輸,而解碼器的功能則是將收到的屬性特徵,轉換成人類可以聽懂的聲音,也就是另一端電話播放的音訊波形。

Lyra解碼器使用生成模型將特徵解碼回音訊波形,Google解釋,生成模型是一種特殊類型的機器學習模型,非常適合從有限的特徵,重新創建出完整的音訊波形。Lyra的架構與傳統音訊編解碼器非常相似,傳統音訊編解碼器已經有數十年歷史,是支撐網際網路通話的主要方法,而有別於傳統的編解碼器使用數位訊號處理(DSP)技術,Lyra的優勢則是使用生成模型來重建高品質語音訊號。

Google提到,在過去數十年間,雖然行動網路技術與建設穩定成長,但是裝置上運算能力的提升,遠遠超過高速無線網路基礎設施的發展,而這種反差在發展中國家更是嚴重,接下來還有數十億的用戶需要連接網路,但是基礎設施可能遠無法應付這龐大的網路需求。另外,即便是行動網路連接高可靠度的地區,語音通訊品質也還是受到行動資料傳輸的限制。

由於這些使用情境,Lyra有了發揮功能的空間,因為Lyra可以將原始音訊壓縮至3kbps位元率,而且音訊品質仍比其他諸如Opus編解碼器的效果還要好,因此在低頻寬,或是頻寬受到限制的情況,Lyra成為了良好的解決方案,Google強調,Lyra的目標不是要成為一個完整的替代方案,而是在特定情境中,有意義地節省頻寬使用。

除了考量頻寬因素外,Lyra還可支援一些獨特的應用,像是能夠用來封存大量的語音,或是利用Lyra輕省的運算,達到節省電池的目的,或者在多人同時撥打電話時,可以最大程度減輕網路壅塞的情況。

Google現在開源Lyra專案,使用C++開發以實現高效能和互通性,並且使用Bazel建置框架,和用於全單元測試的GoogleTest框架。這個釋出的版本同時提供開發人員使用Lyra編碼和解碼音訊所需要的工具,包括檔案和封包層級的解碼和編碼API介面,以及各種濾波器和轉換器等訊號處理工具鏈,並針對在Linux上,開發64位元ARM Android平臺應用程式最佳化。所有Lyra執行程式碼皆以Apache授權許可開源,唯有數學核心除外。

熱門新聞

Advertisement