Nvidia開源AI語音辨識模型Parakeet TDT 0.6B

圖片來源:

Hugging Face

Nvidia本周開源支援語音辨識及聽寫專用的AI模型Parakeet TDT 0.6B，可用於對話式AI、語音助理或是需要生成字幕的服務。

Parakeet TDT 0.6B為6億參數的自動語音辨識（automatic speech recognition,ASR）模型，專為高品質英語聽寫（transcription）而設計。

Parakeet TDT 0.6B為FastConformer架構的XL變種，整合TDT解碼器，並以全注意力（attention）機制訓練而成，它具有很高的語音聽寫速度，一次single pass最長可聽寫24分鐘語音。Parakeet TDT 0.6B在HF-Open-ASR得分榜上達RTFx 3380，詞錯誤率（word error rate）為6.05%，優於其他開放模型。

在功能上，Parakeet TDT 0.6B，支援自動斷句、首字母大寫及精準預測字時戳，在口說數字和歌詞的聽寫效能尤佳。支援音源檔案格式涵括.wav和.flac檔。

Parakeet TDT 0.6B以寬鬆的CC-BY-4.0授權開源，現在已在Hugging Face網站公開。

Nvidia表示，該模型支援使用情境涵括需要文字聽寫的開發人員、研究人員、學術和產業人士，其應用包括對話式AI、語音助理、聽寫服務、字幕生成和語音分析平臺。

Parakeet TDT 0.6B經過優化，適合執行在Nvidia硬體如GPU，及軟體框架（像是CUDA函式庫）上，能比在純CPU環境上獲致更快的訓練和推論時間。它支援Linux 及NVIDIA Ampere、Blackwell、Hopper與Volta等架構的硬體平臺，RAM最少要2GB。

若要操作Parakeet TDT 0.6B或訓練、微調，系統必須安裝Nvidia NeMo工具套件，最好也安裝最新PyTorch版本。

熱門新聞