圖片來源: 

Hugging Face

Nvidia本周開源支援語音辨識及聽寫專用的AI模型Parakeet TDT 0.6B,可用於對話式AI、語音助理或是需要生成字幕的服務。

Parakeet TDT 0.6B為6億參數的自動語音辨識(automatic speech recognition,ASR)模型,專為高品質英語聽寫(transcription)而設計。

Parakeet TDT 0.6B為FastConformer架構的XL變種,整合TDT解碼器,並以全注意力(attention)機制訓練而成,它具有很高的語音聽寫速度,一次single pass最長可聽寫24分鐘語音。Parakeet TDT 0.6B在HF-Open-ASR得分榜上達RTFx 3380,詞錯誤率(word error rate)為6.05%,優於其他開放模型。

在功能上,Parakeet TDT 0.6B,支援自動斷句、首字母大寫及精準預測字時戳,在口說數字和歌詞的聽寫效能尤佳。支援音源檔案格式涵括.wav和.flac檔。

Parakeet TDT 0.6B以寬鬆的CC-BY-4.0授權開源,現在已在Hugging Face網站公開

Nvidia表示,該模型支援使用情境涵括需要文字聽寫的開發人員、研究人員、學術和產業人士,其應用包括對話式AI、語音助理、聽寫服務、字幕生成和語音分析平臺。

Parakeet TDT 0.6B經過優化,適合執行在Nvidia硬體如GPU,及軟體框架(像是CUDA函式庫)上,能比在純CPU環境上獲致更快的訓練和推論時間。它支援Linux 及NVIDIA Ampere、Blackwell、Hopper與Volta等架構的硬體平臺,RAM最少要2GB。

若要操作Parakeet TDT 0.6B或訓練、微調,系統必須安裝Nvidia NeMo工具套件,最好也安裝最新PyTorch版本。

熱門新聞

Advertisement