Open AI開源自動語音辨識系統Whisper

圖片來源:

GitHub

Open AI在周三（9/21）開源了號稱其英文語音辨識能力已達到人類水準的Whisper神經網路，且它亦支援其它98種語言的自動語音辨識。

Whisper系統所提供的自動語音辨識（Automatic Speech Recognition，ASR）模型是被訓練來執行語音辨識與翻譯任務的，它們能將各種語言的語音變成文字，也能將這些文字翻譯成英文。

Whisper系統目前提供了9種模型，它們的參數數量與功能不一，這些模型總計經過68萬小時的語音訓練，以及比對了從網路上蒐集而來的文字轉寫內容，當中有68%的資料為英文語音與英文文字，另有18%的非英文語音及英文文字，以及17%的非英文語音及相對應的文字。而這些非英文的資料涉及98種不同的語言。

由此可知，Whisper模型主要的任務是語音辨識並將它們轉成英文，雖然支援98種語言，但僅於不到10種的語言中可達到強大的ASR能力。

Open AI表示，他們最初設想這些模型應該最適合AI研究人員，協助他們研究現有模型的穩健性、泛化性、能力、偏見或限制，但隨後發現，Whisper應該也適用於打造ASR解決方案的開發者，特別是用在英文語音辨識上。

Open AI也期望Whisper模型的轉錄能力可用來協助改善無障礙工具，儘管Whisper模型無法直接進行即時轉錄，但開發者也許可利用這些模型開始接近即時的語音辨識及轉錄應用，或是帶來實際的經濟影響。

熱門新聞