Google開發出新的非監督式鳥鳴分離技術MixIT(Mixture Invariant Training),這個新方法能以更精確的方式分離鳥鳴,並且改善鳥類分類,而現在Google已經在GitHub上,開源這個最新的鳥鳴分離模型。

生態學家透過掌握鳥類種類,了解森林中食物系統以及健康程度,像是當森林中有比較多的啄木鳥,就代表森林可能存在更多的枯木,而由於鳥類透過鳴叫來交流和標記領地,因此透過鳥鳴聲來辨識鳥類,是最有效率的方法,Google提到,鳥類專家可以靠聽覺辨識出的鳥類,是視覺的10倍。

由於近年自動錄音單元(ARU)的發展,鳥類學家已經能簡單地在森林中,錄製數千小時的音訊,透過解析這些音訊,就能更好地了解生態系統,不過,由人工查看音訊資料非常耗時,而且鳥類專家又不足,因此借助機器學習方法,將可以大幅地減少專家審查這些音訊的負擔。

不過目前基於機器學習的鳥類音訊分類方法,存在一些挑戰,主要的問題在於,許多鳥類活躍的時間都是在黃昏,因此幾乎沒有清晰的個體鳥類紀錄可供學習,大多數可用的資料集,都是在戶外嘈雜的環境下紀錄,常伴隨風、昆蟲和其他環境來源的聲音。所以目前鳥鳴分類模型,難以辨識安靜、遙遠和重疊的聲音。

此外,一些常見的鳥種,當聲音出現在不常見鳥種的訓練資料中,這些常見的鳥種很少被標記,因此反而模型對常見鳥種的辨識度大打折扣,而更好的鳥鳴辨識能力,對於想要使用自動化系統,辨識瀕危或是入侵物種的生態學家來說非常重要。

Google最新的非監督式方法MixIT,能夠良好地解決這些問題,MixIT可學會將單聲道錄音,分離成多個獨立音軌,並且完全使用真實世界嘈雜的錄音進行訓練。研究人員將兩個真實世界錄音混合在一起成MoM(Mixture of Mixtures),以訓練分離模型,分離模型要學會最小化損失函數,來將兩個作為基準真相的原始錄音分開。

但由於分離模型無法知道MoM中,不同聲音在原始錄音中被組合的方式,因此別無選擇地,只能將各個聲音分開,進而學會將每隻發出鳴叫的鳥,放在不同的輸出聲道中,而這也同時把風和其他背景噪音分開。

研究人員對ARU所捕捉到的音訊進行鳥類分類,他們先將音訊以每5秒鐘切成一個片段,然後創建每個片段的梅爾頻譜(Mel-spectrogram),接著訓練EfficientNet分類器,從梅爾頻譜圖像中,辨識鳥類。

在進行分類之前,先使用MixIT模型分離音訊,可以提高分類器處理真實資料集的效能,MixIT分離技術對於辨識較為安靜的鳥類特別有用,而且在許多情況下,也能有助於辨識重疊的鳥鳴,但分離模型確實有一些潛在的限制,音訊可能會被過度分離導致錯誤分類。

Google正與加州科學院合作,以了解在策略燒除(Prescribed Burn)和野火之後,鳥類棲地和物種混合的變化,研究人員也提到,這個模型有許多潛在應用,不只是鳥類,也能夠被用來追蹤昆蟲或是各種動物。


熱門新聞

Advertisement