臉書AI研究院和以色列特拉維夫大學聯合發表一篇論文,該研究開發出一套能夠直接從一位歌手轉換到另一位歌手聲音的深度學習模型,且該神經網路沒有透過任何文本或是音符來協助轉換的工作,而是直接轉換語音,更特別的是,該模型為非監督式,沒有任何歌詞、語音資料、音符,或是歌手之間的配對樣本資料進行協助,也就是模型能夠從未分類、未標註的資料中,實現轉換聲音的任務。

論文中指出,該模型能夠在5~30分鐘內學習如何在不同的歌手聲音中轉換,該神經網路針對所有的歌手,都是利用單一的CNN編譯器和WaveNet解碼器,再透過分類器依據潛在的代表值代表未知的歌手,每個歌手都用一個向量值來表示,為了解決相對較少的資料集問題,研究團隊提出一項新的資料增強和訓練方式。

研究人員解釋,他們的方法是建立在Google開發的自動編譯器WaveNet上,從語音錄音的波形生成模型,並利用反向翻譯(backtranslation),反向翻譯涉及將一個資料樣本轉譯成目標樣本,在該研究中,就是將一個歌手的聲音轉換成另一個,AI模型的訓練則是分為兩個階段,第一個階段是針對每個歌手個別使用損失函數softmax ,接著,新歌手的樣本則是由混合向量而得,為了增強訓練資料集,研究團隊將語音片段的訊號反著播放,並微妙地轉換相位(phase),藉由這兩種方式增加4倍資料集的大小,第一個方式是為了創造能夠辨識同一個歌手的數據,第二種資料增強方式則是創造了不易察覺但是可感知的全新訊號。

在實驗中,研究團隊用了兩個公開的資料集,分別是史丹佛的數位語料資料DAMP和新加坡國立大學的歌唱和對話語料集NUS-48E,其中包含了多個歌手對歌曲的演譯,研究團隊在第一個資料集中隨機挑選了5位歌手,每位歌手都有10首歌的音檔,第二個資料集則是包含12位歌手,而每一位歌手都有4首歌的音檔,研究團隊將所有的資料都用來訓練模型。

最後,再由人工針對生成聲音和目標聲音的相似度進行評分,分數從1~5分,並且也用自動測試的分類系統來評估樣本的品質,最終評分的平均分數為4分,研究團隊期望這項成果未來能夠運用在背景音樂的轉換上,透過非監督式的方式來完成轉換,不需要在前處理的步驟中,用監督式的方式進行語音分離技術。


Advertisement

更多 iThome相關內容