
法國人工智慧新創Mistral推出語音轉文字模型家族Voxtral Transcribe 2,鎖定會議逐字稿、客服通話與即時語音互動等需求,該系列新增即時模型Voxtral Realtime,官方表示轉錄延遲可設定到200毫秒以下。另在批次模型Voxtral Mini Transcribe V2加入說話者分離與詞級時間戳記等能力,強化會議與多方通話整理需求。
Voxtral Transcribe 2包含兩個模型,Voxtral Mini Transcribe V2用於批次轉錄,適合一次處理大量錄音檔,而Voxtral Realtime則鎖定直播字幕、語音助理等即時情境。Mistral同時將Voxtral Realtime以Apache2.0授權釋出權重,企業可選擇在自有環境或邊緣裝置部署。兩款模型皆支援含中文在內的13種語言。
Voxtral Realtime採用原生串流式架構,會在音訊到達時同步產生文字,而非將錄音切成片段後再逐段處理。官方表示延遲可依需求調整,開發者可在反應速度與轉錄準確度之間取捨,讓即時互動更貼近對話節奏。
批次模型Voxtral Mini Transcribe V2則提供說話者分離功能,可輸出說話者標籤與每段發言時間點,方便會議整理與多方通話分析。語境偏移(Context Biasing)允許提供最多100個詞或片語,引導模型更精準辨識人名與專業術語。詞級時間戳記則讓每個字詞對應到音訊位置,方便字幕校對與內容對齊。Mistral也提醒在多人重疊發言時,模型通常會以其中一位說話者為主進行轉錄。
Mistral引用FLEURS語音轉錄基準測試的詞錯誤率,並以多個資料集的說話者分離錯誤率作為比較指標,包含多個英文資料集與TalkBank多語資料集。官方表示Voxtral Mini Transcribe V2在FLEURS約4%詞錯誤率,API定價為每分鐘0.003美元,稱其轉錄準確度優於GPT-4o mini Transcribe、Gemini 2.5 Flash、Assembly Universal與Deepgram Nova等服務,Mistral並提到,Voxtral Mini Transcribe V2在處理速度上約為ElevenLabs Scribe v2的3倍,且在品質相近前提下成本約為其五分之一。
Mistral在Mistral Studio新增音訊試玩場(Playground),提供上傳檔案後即時檢視轉錄結果的介面,可切換說話者分離與時間戳記粒度,並加入語境偏移詞。平臺一次最多上傳10個音訊檔,支援常見音訊格式,單檔上限1 GB,讓團隊能用自家資料快速評估。
熱門新聞
2026-02-02
2026-02-03
2026-02-04
2026-02-02
2026-02-04
2026-02-03