Mistral發表Voxtral Transcribe 2系列模型，即時語音轉文字延遲可低於200毫秒

法國人工智慧新創Mistral推出語音轉文字模型家族Voxtral Transcribe 2，鎖定會議逐字稿、客服通話與即時語音互動等需求，該系列新增即時模型Voxtral Realtime，官方表示轉錄延遲可設定到200毫秒以下。另在批次模型Voxtral Mini Transcribe V2加入說話者分離與詞級時間戳記等能力，強化會議與多方通話整理需求。

Voxtral Transcribe 2包含兩個模型，Voxtral Mini Transcribe V2用於批次轉錄，適合一次處理大量錄音檔，而Voxtral Realtime則鎖定直播字幕、語音助理等即時情境。Mistral同時將Voxtral Realtime以Apache2.0授權釋出權重，企業可選擇在自有環境或邊緣裝置部署。兩款模型皆支援含中文在內的13種語言。

Voxtral Realtime採用原生串流式架構，會在音訊到達時同步產生文字，而非將錄音切成片段後再逐段處理。官方表示延遲可依需求調整，開發者可在反應速度與轉錄準確度之間取捨，讓即時互動更貼近對話節奏。

批次模型Voxtral Mini Transcribe V2則提供說話者分離功能，可輸出說話者標籤與每段發言時間點，方便會議整理與多方通話分析。語境偏移（Context Biasing）允許提供最多100個詞或片語，引導模型更精準辨識人名與專業術語。詞級時間戳記則讓每個字詞對應到音訊位置，方便字幕校對與內容對齊。Mistral也提醒在多人重疊發言時，模型通常會以其中一位說話者為主進行轉錄。

Mistral引用FLEURS語音轉錄基準測試的詞錯誤率，並以多個資料集的說話者分離錯誤率作為比較指標，包含多個英文資料集與TalkBank多語資料集。官方表示Voxtral Mini Transcribe V2在FLEURS約4%詞錯誤率，API定價為每分鐘0.003美元，稱其轉錄準確度優於GPT-4o mini Transcribe、Gemini 2.5 Flash、Assembly Universal與Deepgram Nova等服務，Mistral並提到，Voxtral Mini Transcribe V2在處理速度上約為ElevenLabs Scribe v2的3倍，且在品質相近前提下成本約為其五分之一。

Mistral在Mistral Studio新增音訊試玩場（Playground），提供上傳檔案後即時檢視轉錄結果的介面，可切換說話者分離與時間戳記粒度，並加入語境偏移詞。平臺一次最多上傳10個音訊檔，支援常見音訊格式，單檔上限1 GB，讓團隊能用自家資料快速評估。

熱門新聞