微軟語音辨識技術再突破！辨識能力超越專業聽打記錄員

圖片來源:

微軟

繼去年微軟宣布，自行開發的語音辨識技術可以達到與人類相當的水準後，近日又宣布，該語音辨識技術的準確度，已經正式超越人類，並發布了詳細的技術報告。

微軟語音和對話研究團隊在去年10月宣布，運用業界常用的電話錄音測試集Switchboard，微軟語音辨識技術錯誤率為5.9%，辨識能力可以達到人類的水準，近日則宣布，該語音辨識技術的錯誤率已經降至5.1%，正式超越專業的聽打記錄人員。

語音辨識準確度超越人類，是微軟過去25年，一直想要達成的目標，微軟所採用的電話對話錄音測試集Switchboard，是語音研究社群採用了超過20年的測試語音辨識系統標準，開發語音辨識系統的過程，程式需要自動記錄不同人在不同議題的對話，像是體育或是政治等。

與去年發布的正確率相比，微軟用一系列的工具來改善類神經網路聲學和語言模型，來改善此系統的錯誤率，像是，增加了一項結合卷積式網路和雙向的長短期記憶演算法的CNN-BLSTM，雙向的長短期記憶演算法是一種時間遞歸神經網絡（RNN），來改善聲學模型。

此外，微軟還透過聲音的辨識單元Senone、Frame，以及單詞，結合多個聲學模型的預測，作為語音辨識的方法，並利用過去歷史對話紀錄，增強語音辨識的語言模型，來預測對話接下來會講的字詞，如此一來，可以模型更能夠有效地判斷對話的主題和內容。

這項語音辨識是仰賴微軟自家的深度學習框架CNTK 2.1版，並利用微軟的雲端計算的基礎架構，特別是Azure GPUs，大幅地提升訓練模型的效率，也能快速地測試新設計的演算法。

微軟表示，雖然系統辨識Switchboard的錯誤率已經達到只有5.1%，是一個非常大的突破，不過，未來還有許多可以繼續鑽研的問題，像是如何讓機器像人一樣，在吵雜的環境下，辨識出有腔調的語音、不同風格的說話方式和語言。

微軟希望可以這項研究結果應用在微軟自家的產品和服務上，像是語音個人助理Cortana和認知服務等。未來，不只讓機器記錄語音內容，還要能理解對話的意思和意圖，從語音辨識到理解語意，是微軟接下來主要發展的語音科技目標。

熱門新聞