圖片來源: 

微軟

繼去年微軟宣布,自行開發的語音辨識技術可以達到與人類相當的水準後,近日又宣布,該語音辨識技術的準確度,已經正式超越人類,並發布了詳細的技術報告。

微軟語音和對話研究團隊在去年10月宣布,運用業界常用的電話錄音測試集Switchboard,微軟語音辨識技術錯誤率為5.9%,辨識能力可以達到人類的水準,近日則宣布,該語音辨識技術的錯誤率已經降至5.1%,正式超越專業的聽打記錄人員。

語音辨識準確度超越人類,是微軟過去25年,一直想要達成的目標,微軟所採用的電話對話錄音測試集Switchboard,是語音研究社群採用了超過20年的測試語音辨識系統標準,開發語音辨識系統的過程,程式需要自動記錄不同人在不同議題的對話,像是體育或是政治等。

與去年發布的正確率相比,微軟用一系列的工具來改善類神經網路聲學和語言模型,來改善此系統的錯誤率,像是,增加了一項結合卷積式網路和雙向的長短期記憶演算法的CNN-BLSTM,雙向的長短期記憶演算法是一種時間遞歸神經網絡(RNN),來改善聲學模型。

此外,微軟還透過聲音的辨識單元Senone、Frame,以及單詞,結合多個聲學模型的預測,作為語音辨識的方法,並利用過去歷史對話紀錄,增強語音辨識的語言模型,來預測對話接下來會講的字詞,如此一來,可以模型更能夠有效地判斷對話的主題和內容。

這項語音辨識是仰賴微軟自家的深度學習框架CNTK 2.1版,並利用微軟的雲端計算的基礎架構,特別是Azure GPUs,大幅地提升訓練模型的效率,也能快速地測試新設計的演算法。

微軟表示,雖然系統辨識Switchboard的錯誤率已經達到只有5.1%,是一個非常大的突破,不過,未來還有許多可以繼續鑽研的問題,像是如何讓機器像人一樣,在吵雜的環境下,辨識出有腔調的語音、不同風格的說話方式和語言。

微軟希望可以這項研究結果應用在微軟自家的產品和服務上,像是語音個人助理Cortana和認知服務等。未來,不只讓機器記錄語音內容,還要能理解對話的意思和意圖,從語音辨識到理解語意,是微軟接下來主要發展的語音科技目標。


Advertisement

更多 iThome相關內容