微軟宣布正式在Azure OpenAI服務上推出Whisper模型,Whisper是OpenAI的語音轉文字模型,可供用戶轉錄音訊。微軟提供兩種語音轉文字服務,分別是Azure OpenAI服務以及Azure AI Speech,現在也都提供Whisper模型,不過功能仍有一些差異,用戶可根據不同需求選擇。

Azure OpenAI服務讓開發者可以在Azure中執行Whisper模型,其功能除了轉錄和翻譯之外,還具有處理速度快、多語言支援等優點,微軟提到,Azure OpenAI服務中的OpenAI Whisper,適合用來處理較小型的檔案,以滿足時間敏感的任務需求。可用於需要快速回應的場景,例如即時通訊分析、快速內容生成或是小型檔案的即時處理。

而Azure AI Speech所提供的OpenAI Whisper模型服務,可以與批次轉錄API結合使用,用戶可以簡單地大規模轉錄音訊內容,用於非時間敏感的批次作業。該選項更適合處理大量音訊檔案的情境,像是會議紀錄、長時間的演講,或是大批次的通話紀錄分析。

Azure AI Speech中的Whisper模型可轉錄大型音訊檔案,最多達1 GB,單次請求能包含1,000個檔案,並且系統可同時處理多檔案。而且還能夠區分錄音檔中的不同講者,並精確地轉錄各自的話語,創建有組織結構的音訊轉錄檔案。另外,開發者也可以在Speech Studio,或是透過API使用Custom Speech功能,使用音訊加上人工標註的轉錄文字,對Whisper模型進行微調。

熱門新聞

Advertisement