Google以分層神經渲染生成遮罩，可個別操縱影片中物體時間軸

Google發展了一種產生圖像和影片遮罩的新方法，利用分層神經渲染，將影片中的物體和背景分開，產生稱為Omnimatte的遮罩，與典型分割模型不同之處在於，這個新方法所生成的Omnimatte不僅是物體本身，同時還能分離出和物體有關的其他細節，包括影子、部分透明的軟效果，甚至是輪胎摩擦地面所產生的煙霧，與傳統遮罩相同的地方是，Omnimatte為RGBA圖像，因此能夠用於廣泛的圖像和影片編輯工具。

圖像和影片編輯操作，仰賴準確的遮罩（Matte），Google提到，雖然最近的的電腦視覺技術，已經可以產生高品質的遮罩，用來產生合成景深、合成圖像，或是去除圖像背景，但與主體相關的細節，像是陰影、反射和煙霧，通常會被切割演算法忽略。

為了產生更實用的遮罩，Google開發了新方法，來切割出包含主體和相關細節的Omnimatte，藉由使用分層神經渲染方法，訓練卷積神經網路（CNN），將主體分割遮罩和背景雜訊圖像，映射到單一Omnimatte中。

研究人員提到，因為CNN的特性，能夠良好地學習主體和相關特效之間的關聯性，兩者的相關性越強，CNN就越容易學習，像是（下圖）在路上行走的人與狗，人和人的影子，以及狗和狗的影子之間的空間關係，都是從右向左移動，不過人與狗的影子，或是狗與人的影子，因為關係變化更大，因此相關性也就相對較弱，CNN會先學習較強的相關性，因此能獲得正確的分解結果。

要生成Omnimatte，輸入的影像會被分成多層，每個移動的物體獨立為一層，靜止的背景物體全部被分為另一層，當這些圖層使用Alpha混合合併在一起時，就能重現輸入的影像。Omnimatte能夠被靈活地應用在各種影像處理應用中，像是只要在圖層組合中刪除特定的圖層，就能夠從影片中刪除物體，並且還可以透過複製圖層來複製物體。

Omnimatte也可以用來操控物體在影片中出現的時間（Retime），研究人員提到，這項特效常被應用在電影之中，但是傳統的作法必須在受控的環境中，為每個單獨的主體拍攝影片，但是分解成為Omnimatte後，即便日常的影片，都能夠簡單地操縱物體時序，只需更改每一個圖層的播放速度，就能達到過去必須要對每個物體重新拍攝，才能達到的效果，而且由於Omnimatte是標準的RGBA圖像，因此可以使用傳統的影片編輯軟體來編輯物體的時間軸。

（下圖）影片被分解成三個圖層，每個小孩一層，在原始的影片中，每個小孩跳入水裡的時間不同，但是透過調整Omnimatte播放的時間軸，就能夠讓三個小孩同時跳入水中，並且擁有水花和反射等逼真效果。

不過這個Omnimattes技術仍然有其限制，目前只能用來處理固定相機位置的影像，當相機移動時，便無法精確地捕捉整個背景，部分背景元素可能遮蓋上圖層，另外，CNN在學習相關性上雖然非常強大，但是部分時候產生的結果不如預期，且無法切確掌握原因。研究人員也提到，這項技術可能遭到濫用，即便重新排列的物體，皆為影片中已經存在的內容，但是只要簡單地調整影片內容的順序，就可以被用來產生虛假和誤導性訊息。

熱門新聞