Stability AI推出企業級音訊生成模型Stable Audio 2.5，3分鐘曲目2秒完成

Stability AI正式推出音訊生成模型Stable Audio 2.5，其定位為企業級音訊製作場景，在單張GPU的推論時間低於2秒，可生成最長3分鐘的音軌。新版模型強化了音樂結構表現，並新增音訊修補（Audio Inpainting）功能，讓開發者與專業製作團隊能在不同應用場景快速產出高品質、可調整的音訊內容。

Stable Audio 2.5以音樂生成為核心改進，生成內容更符合實際編曲邏輯，可形成具前奏、發展與結尾的多段式結構。相較前一版本，模型在理解提示詞的準確度提升，例如針對情緒描述或音樂風格語彙，回應更符合預期。

推論速度的提升，主要歸功於開發團隊研發的後訓練方法ARC（Adversarial Relativistic-Contrastive）。透過ARC技術，模型能在維持音軌品質的同時，大幅降低GPU推論時間，將3分鐘音軌的生成時間縮短至不到2秒。

ARC方法的重點在於利用對抗式訓練加速擴散模型，其結合相對性對抗訓練與對比式判別器，讓生成速度更快且提示遵循度更高。ARC能在極短時間內生成高品質音訊，大幅提升文字轉音訊的實用性。

除了既有的文字轉音訊與音訊轉音訊流程，Stable Audio 2.5新增支援音訊修補功能，使用者可輸入自有片段並指定延展位置，模型會依照上下文生成後續聲音，適合在既有素材基礎上延伸或修改。官方條款規定上傳音訊不得包含受版權保護的素材，並透過內容識別系統進行檢測，以確保符合法規。

企業對於品牌聲音的需求日益增長，從廣告、遊戲片頭、零售空間音樂到支付提示音，都需要一致且可辨識的音訊素材。Stability AI提供以企業自有聲音庫進行微調的方案，將品牌專屬音色與節奏特徵嵌入生成流程，確保不同通路與專案中的聲音具有連續性與獨特性。

Stable Audio 2.5現可直接透過StableAudio.com試用，並支援API整合與合作平臺使用。對於需要嚴格控管資料與合規要求的組織，官方提供企業級授權允許本地部署。

熱門新聞