Stability AI發表文字生成音樂AI工具Stable Audio

圖片來源:

Stability AI

繼推出文字生成圖像模型Stable Diffusion之後，Stability AI本周發表了文字生成音樂模型Stable Audio，跨入聲音及音樂的領域。

Stability AI的創辦人暨執行長是出生於約旦、之後移民至英國的Emad Mostaque，自牛津大學畢業後Mostaque曾替穆斯林社群打造伊斯蘭AI，以協助人們認識伊斯蘭教，之後則在英國多個對沖基金工作了十多年，一直到2020年才創立Stability AI，於2022年推出的首個AI模型即為Stable Diffusion 1.0。

迄今Stable Diffusion已歷經多次改版，最新的版本為今年7月發表的Stable Diffusion XL（SDXL）1.0，期間Stability AI也陸續發表了多種模型，包括語言模型StableLM，開源聊天機器人StableVicuna，以及圖像生成設計工具DreamStudio等。

Stable Audio則是由Stability AI內部的生成式聲音研究實驗室Harmonai所開發，利用由AudioSparx所提供的80萬個聲音檔進行訓練，涵蓋音樂、音效、各種樂器，以及相對應的文字描述等，總長超過1.9萬個小時。

Stable Audio與Stable Diffusion一樣，都是基於擴散的生成模型，Stability AI指出，一般的聲音擴散模型通常是在較長聲音檔案中隨機裁剪的聲音區塊進行訓練，可能導致所生成的音樂缺乏頭尾，但Stable Audio架構同時基於文字，以及聲音檔案的持續及開始時間，而讓該模型得以控制所生成聲音的內容與長度。

此外，利用最新的擴散取樣技術，Stable Audio模型在Nvidia A100 GPU上以44.1 kHz的取樣速度，不到1秒就能渲染95秒的立體聲。

Stable Audio同時提供免費與Pro付費版，前者每月可免費生成20次、最長20秒的聲音或音樂，而若每月支付12美元，則可生成500次，最長90秒的音頻。

目前坊間的文字生成音樂工具還有Google的MusicLM與Meta的音樂生成模型MusicGen。

熱門新聞