影音處理框架FFmpeg在即將發布的8.0版本中,加入一項名為Whisper的音訊過濾器,讓開發者在影片轉檔或串流處理的流程中,可直接進行語音轉錄。這項功能整合了OpenAI的Whisper語音辨識模型,透過內建的過濾器機制,能在不中斷處理流程的情況下,將音訊內容轉換成文字,並輸出為字幕或結構化資料。

Whisper過濾器的實作仰賴whisper.cpp函式庫,使用者必須先在系統中安裝並啟用對應支援,編譯時以—enable-whisper選項啟用功能。該過濾器支援多種輸出模式,包括純文字、SRT字幕格式及JSON,輸出目標可以是檔案,也能透過HTTP等協定直接送往其他系統。當不指定輸出位置,轉錄結果會以後設資料的形式附加在音訊幀上,供後續處理或分析使用。

Whisper過濾器提供佇列參數讓使用者設定累積多少音訊資料再進行辨識,預設約為3秒。時間設定越長,準確率相對提高且處理頻率降低,適合批次處理,而時間設定越短,則可降低延遲,適合即時應用。過濾器也支援啟用Silero語音活動偵測(VAD),在長音訊串流中自動切分語音片段,提高辨識效率與段落準確度。

Whisper過濾器支援GPU加速,並可指定運算裝置編號,配合FFmpeg本身的多執行緒處理,在高效能環境下提升轉錄速度。

對影音開發者而言,這項更新讓同一條影音處理管線可完成編碼、轉碼與語音轉錄,不需額外呼叫外部工具或進行中間檔案處理,簡化了流程與系統整合工作。無論是影片上傳平臺需要自動產生字幕,還是串流應用想在即時轉播中附加逐字稿,這項功能都能直接嵌入現有FFmpeg工作流程中使用。

熱門新聞

Advertisement