圖片來源: 

OpenAI

OpenAI上周公布語音生成AI模型Voice Engine初步成果,號稱只要上傳15秒的人聲樣本,及輸入文字稿,就能產生極似原說話者聲音的自然語音。

OpenAI於2022年開始開發Voice Engine模型。這個模型已用於其OpenAI的語音合成(TTS)API及ChatGPT去年秋天上線的Voice及Read Aloud功能。但OpenAI並未大加宣傳,僅低調表示Spotify使用該模型支援語音翻譯功能

OpenAI強調,Voice Engine模型為一個小模型,但只要提供它15秒的聲音範例,它就能生成和說話者極相似的流暢話語。

去年OpenAI也讓一些非營利組織、醫療、教學單位使用Voice Engine試用並建立使用場景。上周OpenAI也公布部分應用場景。包括一家教學軟體公司以AI語音生成技術製成學童的有聲教材,另一家說故事平臺用它將一段文本翻譯成多國語言,且保留道地腔調。一個非洲非營利組織以Voice Engine製作AI互動工具教授當地婦女哺乳知識,一家語音通訊App開發商開發出可協助語言障礙人士溝通的說話App。此外,這個AI模型還能為因病說話不清的使用者重建其聲音。

為了防止這類功能被濫用,測試單位必須遵循OpenAI的使用政策,不得未經同意或違法模仿個人或組織的聲音,也要求原說話者需被告知且提供明顯同意。他們也不允許開發人員讓個人用戶建立模仿自己的AI人聲。合作夥伴也須清楚告知受眾,這些聲音是AI生成的。最後,OpenAI也會實作安全措施,包括為這些聲音加入浮水印以便能判別並追蹤Voice Engine生成的聲音、或監控其使用。

藉由擴大測試Voice Engine,OpenAI除了希望帶動AI語音應用開發,提升大眾對AI語音詐騙的警覺心、推進安全政策外,也鼓勵銀行等組織淘汰以語音為基礎的身分驗證方式。

OpenAI這項新技術可能會讓另一些工作者,如配音員擔心失業。今年2月OpenAI公開的影片生成AI模型Sora生成極高品質、具有多個角色、特定動作及具備精準主題細節及背景的複雜場景影片,已震撼影像工作者。

在OpenAI之前,其他大廠也公布了類似的AI研發成果。微軟去年9月開源超強語音合成模型VALL-E X,只要輸入3到10秒個人講話的錄音,模型就能逼真合成該聲音,用另一個語言說話。

Amazon 2月宣布該公司歷來最大、高達10億參數的語音合成(text-to-speech,TTS)模型BASE TTS,號稱生成的語音自然度超過現有語音合成系統。

熱門新聞

Advertisement