Eleven Labs新語音模型供用戶設計全新合成聲音

Eleven Labs更新自家語音生成模型，使用戶能夠根據性別、年齡、口音、音高，甚至是說話風格等特徵，創建出全新的人造聲音，系統每次合成的聲音都不一樣，即便用戶以相同參數創建聲音，也會得到一個過去不曾存在的聲音。

Eleven Labs的聲音產生器（Voice Generator），供用戶在有聲讀物、遊戲等應用添加人聲語音，但官方提到，因為他們當前的演講者庫太小，導致使用者常難以產生符合應用需求的聲音，因此Eleven Labs發展新的解決方案，提供用戶以全新方式設計合成聲音。

官方解釋，他們新方法的靈感，來自於語音合成和語音複製，都會使用到的語音特徵編碼方法，當在訓練用戶專屬模型時，對說話者嵌入分布進行採樣，就能創建出無限多種的新聲音，而在這過程加入一定程度的限制，就能賦予聲音擁有特定的語音特徵。

Eleven Labs新語音模型，現在已經可以產生具各種聲音特徵的逼真語音，這將能擴大人工語音的應用範圍，包括在新聞媒體和商業廣告的音訊，將品牌與特定聲音相關聯，甚至是用於開發遊戲，於開發初期就能靈活地執行各種語音試驗。

熱門新聞