Google改良語音過濾模型，提升裝置上語音辨識效果

Google發表了裝置上輕量級語音過濾模型VoiceFilter-Lite，可用於背景音吵雜，或是多人環境的語音處理應用，使得即便在沒有網際網路連接，也能讓用戶在極為吵鬧的地方，存取語音助理功能。

透過語音輔助技術，可以讓用戶利用聲音命令，與裝置進行互動，而這仰賴精確的語音辨識，才能讓語音助理服務特定用戶，Google提到，在許多實際的情境中，語音辨識的輸入音訊，通常含有重疊的語音，而這對許多語音辨識演算法來說，是一個巨大的挑戰。因此在2018年的時候，Google發展出了VoiceFilter系統，讓使用者可以註冊自己的聲音，使得語音助理能夠提供個人化的服務。

不過，雖然VoiceFilter方法能夠精確地區分目標使用者的聲音，而且比過去的方法，提供更好的失真比（SDR），但缺點在於該模型太大，在裝置上執行，受到了CPU、記憶體的限制，同時也需要考量電量消耗以及延遲的問題，因此現在Google對VoiceFilter作出改進，發展出輕量版的VoiceFilter-Lite，以便將模型放到裝置上執行。

Google精心設計了VoiceFilter-Lite，使其能適應裝置上的應用，VoiceFilter-Lite能夠即時過濾掉非目標說話者的聲音，並在Google使用TensorFlow Lite函式庫，對神經網路進行量化後，模型的大小僅為2.2 MB，很適合整合進大多數裝置上應用程式。

VoiceFilter-Lite是一個隨插即用的模型，當用戶沒有註冊聲音，應用程式可以簡單地跳過VoiceFilter-Lite，直接進行後續的處理，而這也代表，開發者可以分開訓練和更新，語音辨識模型還有VoiceFilter-Lite模型，大幅降低部署過程的複雜度。

無論是在安靜的場景，或是吵雜的場景，VoiceFilter-Lite都能夠良好地處理單一說話者的語音，而在語音重疊的情境，VoiceFilter-Lite能夠改善單字錯誤率25.1％，而在像是家中智慧音響的使用場景，其回音與多人聲重疊的環境，使得語音辨識更具挑戰，而VoiceFilter-Lite也能改善單詞錯誤率達14.7％。

熱門新聞