Meta開源文字轉音效、配樂的AI框架AudioCraft

圖片來源:

Meta

Meta周三宣布開源可以輸入文字生成音樂的AI框架AudioCraft，讓不會譜曲或不懂音樂的遊戲或VR開發人員，也能製作精彩的音效或配樂。

AudioCraft是一個開發框架。經訓練後，就能根據使用者輸入的文字，產生高品質及逼真的聲音或音樂。AudioCraft包含三個模型，MusicGen、AudioGen和EnCodec。其中MusicGen以Meta自有及專屬授權音樂訓練而成，可以文字生成音樂，AudioGen是以公開聲音資料集訓練，能生成音效。MusicGen和AudioGen是Meta去年分別於6月及10月發表的模型。

Encodec則是去年11月發表的聲音壓縮技術，號稱壓縮效果是MP3的10倍。AudioCraft包含的Encodec解碼技術為新版本，較前版減少壓縮失真率。

經過預訓練的AudioGen模型可產生環境音效及聲音，如狗吠、汽車喇叭、木階梯上樓聲等。Meta指出，開源AudioGen旨在提供研究並促進產業界的了解，允許開發商以自有資料集訓練自己的模型。

Meta也說明AudioGen和傳統生成音樂的AI模型不同。傳統訓練音樂生成AI模型，是透過音樂的象徵表現方式，如MIDI或鋼琴打孔紙卷。但是此類方法無法完全掌握音樂表現的細微差異及風格元素。進階一點的是用自我監督式音頻表示法學習（audio representation learning）及多種階層式（cascaded model）模型來產生音樂，將原始音樂輸入複雜系統以抓取訊號較長範圍的結構，以利生成高品質聲音，但效果仍然有待改進。

Meta表示，AudioCraft家族模型則簡化音訊生成模型的整體設計，讓用戶以自然語言輸入，不需寫程式，而生成高品質且品質穩定的聲音，涵括音效及配樂，不但生成音訊容易、快速、也能重覆使用，還具有壓縮音訊演算法，適合不同需求的用戶。

Meta的競爭對手也推出了音訊生成AI模型。OpenAI 2020年發表音樂生成的機器學習框架Jukebox，而Google今年5月也公布了MusicLM。而一個AI平臺Riffusion則以Stable Diffusion的AI模型為基礎，提供以文字生成音樂的服務。

這是Meta開放使用的最新AI模型。上周Meta也聯手微軟公布了可免費商用的大型文字語言模型（Large Language Model）Llama-2。

熱門新聞