Azure OpenAI服務正式上架Whisper模型

微軟宣布正式在Azure OpenAI服務上推出Whisper模型，Whisper是OpenAI的語音轉文字模型，可供用戶轉錄音訊。微軟提供兩種語音轉文字服務，分別是Azure OpenAI服務以及Azure AI Speech，現在也都提供Whisper模型，不過功能仍有一些差異，用戶可根據不同需求選擇。

Azure OpenAI服務讓開發者可以在Azure中執行Whisper模型，其功能除了轉錄和翻譯之外，還具有處理速度快、多語言支援等優點，微軟提到，Azure OpenAI服務中的OpenAI Whisper，適合用來處理較小型的檔案，以滿足時間敏感的任務需求。可用於需要快速回應的場景，例如即時通訊分析、快速內容生成或是小型檔案的即時處理。

而Azure AI Speech所提供的OpenAI Whisper模型服務，可以與批次轉錄API結合使用，用戶可以簡單地大規模轉錄音訊內容，用於非時間敏感的批次作業。該選項更適合處理大量音訊檔案的情境，像是會議紀錄、長時間的演講，或是大批次的通話紀錄分析。

Azure AI Speech中的Whisper模型可轉錄大型音訊檔案，最多達1 GB，單次請求能包含1,000個檔案，並且系統可同時處理多檔案。而且還能夠區分錄音檔中的不同講者，並精確地轉錄各自的話語，創建有組織結構的音訊轉錄檔案。另外，開發者也可以在Speech Studio，或是透過API使用Custom Speech功能，使用音訊加上人工標註的轉錄文字，對Whisper模型進行微調。

熱門新聞