Perch 2.0在DCLDE 2026虎鯨生態型資料集的t-SNE視覺化中,五種生態型嵌入壓成二維後仍能清楚分群,特別是虎鯨的北方定居型(NRKW)與過境型(TKW)界線明顯,其表現的特徵更利於少樣本分類

Google研究院與Google DeepMind合作研發生物聲學基礎模型Perch 2.0。Perch 2.0訓練資料主要來自鳥類與其他陸域發聲動物,訓練資料不含水下音訊或海洋哺乳類類別,仍能把學到的聲學嵌入向量轉用到水下錄音的分類任務。研究團隊強調,研究者只要準備少量已標註片段,就能在新資料上用轉移學習快速建立可用的自訂分類器。

研究人員在NeurIPS 2025的非人類動物溝通AI工作坊發表,採用少樣本線性探針流程,先以預訓練模型為聲音片段產生嵌入向量,再在嵌入向量上訓練多類別邏輯迴歸分類器,評估其區分不同類別的能力。研究在NOAA PIPAN、ReefSet與DCLDE等資料集測試後指出,Perch 2.0多數設定下為最佳或次佳。

Perch 2.0為何能跨域?研究人員解釋較大模型與較多樣的訓練資料有助泛化,以及在鳥類相近叫聲之間做細緻區分,會迫使模型學到更精細的聲學特徵,進而轉用於區分不同鯨類物種或不同虎鯨族群。研究也將Perch 2.0與AVES-bio、AVES-bird、BirdNet v2.3等既有模型比較,並以嵌入向量的視覺化結果說明,在部分任務上,不同類別的特徵分布會交錯在一起,界線不清楚,但Perch 2.0整體表現更穩定,較常在資料量很小時,仍能穩定區分不同物種或聲音類型。

水下聲學常用於長期監測海洋生物,但水下聽音器錄到的聲景龐雜,人工標註耗時且仰賴領域專家,新聲音的來源也可能多年後才被釐清。NOAA以Biotwang為例指出,該聲音2014年在馬里亞納群島的自動化聲學錄音中被發現,當時只能推測出自鬚鯨,直到結合目擊與聲學調查資料,才將其歸因於布氏鯨,這也凸顯出聲音歸因與標籤建立的難度。

因此,Perch 2.0此次跨域的意義,較接近以通用嵌入向量降低新任務門檻,而非宣稱模型理解所謂鯨豚語意。論文也比較多個既有生物聲學模型,指出即使部分模型未針對水下訓練,仍可能在特定任務奏效,但Perch 2.0整體更穩定。

研究團隊也提到以Google Cloud上的NOAA NCEI被動聲學資料庫做端到端示範,並提供Colab教學,讓研究者從公開音檔到自訂分類器的流程更易重現。NOAA NCEI說明,該資料庫用於彙整與散布各單位蒐集的被動聲學音檔與相關資料產品,提供搜尋與存取。

熱門新聞

Advertisement