Stability AI正式推出音訊生成模型Stable Audio 2.5,其定位為企業級音訊製作場景,在單張GPU的推論時間低於2秒,可生成最長3分鐘的音軌。新版模型強化了音樂結構表現,並新增音訊修補(Audio Inpainting)功能,讓開發者與專業製作團隊能在不同應用場景快速產出高品質、可調整的音訊內容。

Stable Audio 2.5以音樂生成為核心改進,生成內容更符合實際編曲邏輯,可形成具前奏、發展與結尾的多段式結構。相較前一版本,模型在理解提示詞的準確度提升,例如針對情緒描述或音樂風格語彙,回應更符合預期。

推論速度的提升,主要歸功於開發團隊研發的後訓練方法ARC(Adversarial Relativistic-Contrastive)。透過ARC技術,模型能在維持音軌品質的同時,大幅降低GPU推論時間,將3分鐘音軌的生成時間縮短至不到2秒。

ARC方法的重點在於利用對抗式訓練加速擴散模型,其結合相對性對抗訓練與對比式判別器,讓生成速度更快且提示遵循度更高。ARC能在極短時間內生成高品質音訊,大幅提升文字轉音訊的實用性。

除了既有的文字轉音訊與音訊轉音訊流程,Stable Audio 2.5新增支援音訊修補功能,使用者可輸入自有片段並指定延展位置,模型會依照上下文生成後續聲音,適合在既有素材基礎上延伸或修改。官方條款規定上傳音訊不得包含受版權保護的素材,並透過內容識別系統進行檢測,以確保符合法規。

企業對於品牌聲音的需求日益增長,從廣告、遊戲片頭、零售空間音樂到支付提示音,都需要一致且可辨識的音訊素材。Stability AI提供以企業自有聲音庫進行微調的方案,將品牌專屬音色與節奏特徵嵌入生成流程,確保不同通路與專案中的聲音具有連續性與獨特性。

Stable Audio 2.5現可直接透過StableAudio.com試用,並支援API整合與合作平臺使用。對於需要嚴格控管資料與合規要求的組織,官方提供企業級授權允許本地部署。

熱門新聞

Advertisement