
Meta發表其最新音訊分離模型SAM Audio,主打以提示方式從混合音訊中抽離特定音源,並支援文字提示、畫面點選與時間區段標記3種互動。Meta表示,SAM Audio與其背後的技術引擎PE-AV(Perception Encoder Audiovisual)即日起提供使用,同時也把SAM Audio放進Segment Anything Playground,讓用戶可直接選用平臺素材或上傳自己的影音內容操作。另外,Meta也提供模型下載,模型權重則需申請存取。
SAM Audio提供3種提示,對應不同素材與工作情境。文字提示適合直接描述目標聲音,例如輸入狗叫聲或歌聲來抽取聲源。視覺提示則針對影音內容,使用者可在影片畫面上點選正在發聲的人或物件,讓系統利用畫面線索協助鎖定聲音。時間段提示則讓使用者在時間軸上標記目標聲音出現的區段,Meta稱這是業界首見的時間段提示設計,且3種提示可單獨使用,也能混合搭配以取得更符合需求的分離結果。
Meta舉例可在樂團演出影片中點選吉他以抽離其聲音,也可用文字提示過濾戶外錄影的車流噪音,或用時間段提示一次處理整段Podcast錄音中的特定干擾聲。Meta表示,這些能力可用於音訊清理、背景噪音移除等聲音編輯。
SAM Audio為統一音訊分離模型,核心採用生成式架構,會把混合音訊與一個或多個提示編碼到共享特徵中,再產生目標音軌與其餘殘留音軌。Meta也說明為了取得足夠的訓練資料,建立資料引擎,結合音訊混音、自動產生多模態提示,以及以模型輔助建立標註的流程,產生更貼近真實情境的訓練資料。
支撐SAM Audio的另一個關鍵是PE-AV,Meta指出,PE-AV建立在其今年稍早釋出的開源Perception Encoder之上,並延伸到視覺與音訊的整合,用來強化SAM Audio在仰賴畫面線索時的分離能力。PE-AV會抽取逐格的影片特徵,並與音訊特徵進行時序對齊,把看到的與聽到的在同一時間點連結起來,讓系統能更準確分離畫面中可被指認的聲源,例如螢幕上的講者或樂器,也能從場景線索推測畫面外的事件。
Meta列出SAM Audio的限制,包括目前不支援以音訊作為提示,且模型並非設計在沒有提示的情況下,自動分離混合音訊中的所有聲源。對於高度相似的聲音事件分離,例如從合唱中挑出單一歌手或從管弦樂中分離單一樂器,仍是較具挑戰的情境。
熱門新聞
2025-12-12
2025-12-16
2025-12-17
2025-12-15
2025-12-15
2025-12-15