影音處理框架FFmpeg 8.0新增Whisper過濾器，讓影片轉檔可同步語音轉錄

影音處理框架FFmpeg在即將發布的8.0版本中，加入一項名為Whisper的音訊過濾器，讓開發者在影片轉檔或串流處理的流程中，可直接進行語音轉錄。這項功能整合了OpenAI的Whisper語音辨識模型，透過內建的過濾器機制，能在不中斷處理流程的情況下，將音訊內容轉換成文字，並輸出為字幕或結構化資料。

Whisper過濾器的實作仰賴whisper.cpp函式庫，使用者必須先在系統中安裝並啟用對應支援，編譯時以—enable-whisper選項啟用功能。該過濾器支援多種輸出模式，包括純文字、SRT字幕格式及JSON，輸出目標可以是檔案，也能透過HTTP等協定直接送往其他系統。當不指定輸出位置，轉錄結果會以後設資料的形式附加在音訊幀上，供後續處理或分析使用。

Whisper過濾器提供佇列參數讓使用者設定累積多少音訊資料再進行辨識，預設約為3秒。時間設定越長，準確率相對提高且處理頻率降低，適合批次處理，而時間設定越短，則可降低延遲，適合即時應用。過濾器也支援啟用Silero語音活動偵測（VAD），在長音訊串流中自動切分語音片段，提高辨識效率與段落準確度。

Whisper過濾器支援GPU加速，並可指定運算裝置編號，配合FFmpeg本身的多執行緒處理，在高效能環境下提升轉錄速度。

對影音開發者而言，這項更新讓同一條影音處理管線可完成編碼、轉碼與語音轉錄，不需額外呼叫外部工具或進行中間檔案處理，簡化了流程與系統整合工作。無論是影片上傳平臺需要自動產生字幕，還是串流應用想在即時轉播中附加逐字稿，這項功能都能直接嵌入現有FFmpeg工作流程中使用。

熱門新聞