圖片來源: 

微軟

微軟在Ignite大會上宣布在Azure AI Speech服務下,能生成逼真虛擬化身的AI新工具,並開放大眾預覽試用。

這項工具名為Azure AI Speech text to speech (TTS) avatar。TTS為Azure AI Speech 4項模組之一,可從文字合成語音(其他三項為語音轉錄、語言翻譯及語音辨識服務)。最新工具讓使用者可輸入文字生成會說話的虛擬化身,以及打造以人物圖像訓練的互動式聊天機器人,可用於企業的行銷、業務或客戶服務。

這項新工具包含三項元件,分別是文字分析器、TTS聲音合成器及TTS虛擬化身影像合成器。文字分析器會先分析用戶輸入的文字提示,產生音素序列(phoneme sequence)。接著TTS聲音合成器中的TTS語音模型會預測輸入文字的聲學特徵,再合成聲音。最後,由神經網路聲音合成模型Avatar根據聲學特徵預測人物的唇形影像,製作出合成影片。

微軟解釋,傳統虛擬化身製作耗時費工,需要設立拍攝環境、拍攝並剪輯影片,也很花成本。運用TTS聊天機器人/虛擬化身,用戶只要輸入文字就可以製作影片、產品介紹或客戶證言影片等。此外,運用Azure OpenAI Service及神經網路TTS功能,可透過虛擬化身呈現更自然的互動體驗。

微軟舉例,用戶可利用Azure AI Speech TTS avatar批次製作影片內容,像是企業內訓影片、產品介紹或CEO在大會上的數位分身。也可以製作虛擬人像,像是旅遊網站的聊天機器人、廣告中的虛擬業務或線上教學的AI老師等。

這項虛擬化身AI影片製作工具提供給Azure訂戶。虛擬化身能支援多種語言,用戶可以從預設的虛擬化身選單中挑選,也可以自行客製化虛擬化身。想要客製化,用戶可以上傳想要的人物影片片段,該系統會以之訓練並生成虛擬化身。用戶也可以選擇選單中的聲音,或另外訓練,以便生成一個完全客製化及個人化的虛擬化身。

為了避免這項功能被濫用,製作詐騙訊息或假新聞,客製化虛擬化身只提供實名註冊的用戶有限存取,也只供特定應用場景。用戶需在微軟網頁註冊申請

Azure AI Speech TTS avatar只是Ignite開發商大會上,微軟公布Azure AI Speech新增功能之一。其他宣布還有三項已正式上線的功能,分別是雙語模型(支援英/西及英/法),可提供即時語音轉錄(speech to text)、可嵌入裝置的語音轉錄及語音合成、以及14種語言的發音評估。

此外Azure AI Speech提供三項功能有限度的公測,分別是Azure OpenAI Studio Chat Playground的語音轉錄及語音合成、個人化聲音合成、以及OpenAI語音辨識模型Whisper的客製化。微軟並開放Azure AI Studio中的語音分析(Speech Analytics)及說話者自動分段標記(Speaker Diarization)供測試。

熱門新聞

Advertisement