Eleven Labs更新自家語音生成模型,使用戶能夠根據性別、年齡、口音、音高,甚至是說話風格等特徵,創建出全新的人造聲音,系統每次合成的聲音都不一樣,即便用戶以相同參數創建聲音,也會得到一個過去不曾存在的聲音。

Eleven Labs的聲音產生器(Voice Generator),供用戶在有聲讀物、遊戲等應用添加人聲語音,但官方提到,因為他們當前的演講者庫太小,導致使用者常難以產生符合應用需求的聲音,因此Eleven Labs發展新的解決方案,提供用戶以全新方式設計合成聲音。

官方解釋,他們新方法的靈感,來自於語音合成和語音複製,都會使用到的語音特徵編碼方法,當在訓練用戶專屬模型時,對說話者嵌入分布進行採樣,就能創建出無限多種的新聲音,而在這過程加入一定程度的限制,就能賦予聲音擁有特定的語音特徵。

Eleven Labs新語音模型,現在已經可以產生具各種聲音特徵的逼真語音,這將能擴大人工語音的應用範圍,包括在新聞媒體和商業廣告的音訊,將品牌與特定聲音相關聯,甚至是用於開發遊戲,於開發初期就能靈活地執行各種語音試驗。

熱門新聞

Advertisement