圖片來源: 

Meta

Meta周三宣布開源可以輸入文字生成音樂的AI框架AudioCraft,讓不會譜曲或不懂音樂的遊戲或VR開發人員,也能製作精彩的音效或配樂。

AudioCraft是一個開發框架。經訓練後,就能根據使用者輸入的文字,產生高品質及逼真的聲音或音樂。AudioCraft包含三個模型,MusicGenAudioGen和EnCodec。其中MusicGen以Meta自有及專屬授權音樂訓練而成,可以文字生成音樂,AudioGen是以公開聲音資料集訓練,能生成音效。MusicGen和AudioGen是Meta去年分別於6月10月發表的模型。

Encodec則是去年11月發表的聲音壓縮技術,號稱壓縮效果是MP3的10倍。AudioCraft包含的Encodec解碼技術為新版本,較前版減少壓縮失真率。

經過預訓練的AudioGen模型可產生環境音效及聲音,如狗吠、汽車喇叭、木階梯上樓聲等。Meta指出,開源AudioGen旨在提供研究並促進產業界的了解,允許開發商以自有資料集訓練自己的模型。

Meta也說明AudioGen和傳統生成音樂的AI模型不同。傳統訓練音樂生成AI模型,是透過音樂的象徵表現方式,如MIDI或鋼琴打孔紙卷。但是此類方法無法完全掌握音樂表現的細微差異及風格元素。進階一點的是用自我監督式音頻表示法學習(audio representation learning)及多種階層式(cascaded model)模型來產生音樂,將原始音樂輸入複雜系統以抓取訊號較長範圍的結構,以利生成高品質聲音,但效果仍然有待改進。

Meta表示,AudioCraft家族模型則簡化音訊生成模型的整體設計,讓用戶以自然語言輸入,不需寫程式,而生成高品質且品質穩定的聲音,涵括音效及配樂,不但生成音訊容易、快速、也能重覆使用,還具有壓縮音訊演算法,適合不同需求的用戶。

Meta的競爭對手也推出了音訊生成AI模型。OpenAI 2020年發表音樂生成的機器學習框架Jukebox,而Google今年5月也公布了MusicLM。而一個AI平臺Riffusion則以Stable Diffusion的AI模型為基礎,提供以文字生成音樂的服務。

這是Meta開放使用的最新AI模型。上周Meta也聯手微軟公布了可免費商用的大型文字語言模型(Large Language Model)Llama-2

熱門新聞

Advertisement