圖片來源: 

GitHub

Open AI在周三(9/21)開源了號稱其英文語音辨識能力已達到人類水準的Whisper神經網路,且它亦支援其它98種語言的自動語音辨識。

Whisper系統所提供的自動語音辨識(Automatic Speech Recognition,ASR)模型是被訓練來執行語音辨識與翻譯任務的,它們能將各種語言的語音變成文字,也能將這些文字翻譯成英文。

Whisper系統目前提供了9種模型,它們的參數數量與功能不一,這些模型總計經過68萬小時的語音訓練,以及比對了從網路上蒐集而來的文字轉寫內容,當中有68%的資料為英文語音與英文文字,另有18%的非英文語音及英文文字,以及17%的非英文語音及相對應的文字。而這些非英文的資料涉及98種不同的語言。

由此可知,Whisper模型主要的任務是語音辨識並將它們轉成英文,雖然支援98種語言,但僅於不到10種的語言中可達到強大的ASR能力。

Open AI表示,他們最初設想這些模型應該最適合AI研究人員,協助他們研究現有模型的穩健性、泛化性、能力、偏見或限制,但隨後發現,Whisper應該也適用於打造ASR解決方案的開發者,特別是用在英文語音辨識上。

Open AI也期望Whisper模型的轉錄能力可用來協助改善無障礙工具,儘管Whisper模型無法直接進行即時轉錄,但開發者也許可利用這些模型開始接近即時的語音辨識及轉錄應用,或是帶來實際的經濟影響。

熱門新聞

Advertisement