
Hugging Face
Nvidia本周開源支援語音辨識及聽寫專用的AI模型Parakeet TDT 0.6B,可用於對話式AI、語音助理或是需要生成字幕的服務。
Parakeet TDT 0.6B為6億參數的自動語音辨識(automatic speech recognition,ASR)模型,專為高品質英語聽寫(transcription)而設計。
Parakeet TDT 0.6B為FastConformer架構的XL變種,整合TDT解碼器,並以全注意力(attention)機制訓練而成,它具有很高的語音聽寫速度,一次single pass最長可聽寫24分鐘語音。Parakeet TDT 0.6B在HF-Open-ASR得分榜上達RTFx 3380,詞錯誤率(word error rate)為6.05%,優於其他開放模型。
在功能上,Parakeet TDT 0.6B,支援自動斷句、首字母大寫及精準預測字時戳,在口說數字和歌詞的聽寫效能尤佳。支援音源檔案格式涵括.wav和.flac檔。
Parakeet TDT 0.6B以寬鬆的CC-BY-4.0授權開源,現在已在Hugging Face網站公開。
Nvidia表示,該模型支援使用情境涵括需要文字聽寫的開發人員、研究人員、學術和產業人士,其應用包括對話式AI、語音助理、聽寫服務、字幕生成和語音分析平臺。
Parakeet TDT 0.6B經過優化,適合執行在Nvidia硬體如GPU,及軟體框架(像是CUDA函式庫)上,能比在純CPU環境上獲致更快的訓練和推論時間。它支援Linux 及NVIDIA Ampere、Blackwell、Hopper與Volta等架構的硬體平臺,RAM最少要2GB。
若要操作Parakeet TDT 0.6B或訓練、微調,系統必須安裝Nvidia NeMo工具套件,最好也安裝最新PyTorch版本。
熱門新聞
2025-06-21
2025-06-23
2025-06-23
2025-06-23
2025-06-23
2025-06-23
2025-06-23
2025-06-20