Nvidia
今年3月GTC大會,Nvidia首次展示一項AI作畫應用GauGAN,可以根據使用者畫的簡單圖像,自動生產一個擬真的實景圖,還能將作品轉變成不同時期藝術風格的畫作,讓即使是菜鳥畫家,也能畫出有如藝術大師水準的風景畫。隨後也在6月推出公開測試版,讓大家可以試用,結果一推出就大獲好評,短短一個月,使用GauGAN生成新圖像就多達50萬張,就連專業畫家也愛不釋手。Nvidia首席研究科學家,也是GauGAN計畫主持人劉洺堉近日來臺也揭露更多技術細節。
以生成式對抗網路GAN,讓神經網路學習人類作畫
GauGAN其實就是一個AI作畫工具,經由AI來幫助人類作畫,劉洺堉表示,透過這項工具,只要簡單輸入一張草稿圖或是手繪圖,就能轉換成不同風格的圖像。它也提供畫筆和油漆桶等繪圖工具,讓使用者可以在網頁上即時作畫。
作畫的人只要在網頁上的畫框空白處,簡單畫出輪廓圖用來顯示場景中每個物體的位置,就能利用GauGAN這個工具將畫好的塗鴉轉換為有如桌布上逼真的風景照,不僅可以分別出影像中物體的遠近,帶出景深感,就連陰影、材質紋路都可以逼真重現。
使用者邊畫的同時,還可以邊查看創作的成果,再以帶有不同標籤的色筆替自己的畫作增加或更換不同場景,就能自動在原圖中產生對應的擬真景色,例如,河流、岩石、沙地、海灘、天空、雪地、樹木及海水等;另外也可以套用不同效果濾鏡與繪畫風格,讓一張圖片可以同時呈現不同的光影效果或對應不同的天候、季節。「關鍵就是透過生成式對抗網路GAN(Generative Adversarial Network)來訓練深度學習模型。」劉洺堉說。
在設計GauGAN生成網路架構時,Nvidia團隊除了採用臉書開源的深度學習開發框架PyTorch,來設計出GauGAN背後的神經網路, 還自行開發一個關鍵核心算法SPADE,用來解決舊有pix2pixHD算法在特定場景下容易產生圖像資訊遺失的問題,以維持高品質的影像生成效果。圖片來源/Nvidia
GauGAN是以pix2pixHD為原型打造的深度生成模型
目前AI生成影像的常見作法,主要採用深度學習建立深度生成模型(Deep Generative Models),其中又以生成式對抗網路GAN近年來最受矚目。劉洺堉表示,GAN是由兩個神經網路組成,一個是隨機合成新樣本的生成器(Generator),另一個則是比較生成樣本與訓練樣本差異的判別器(Discriminator),用以區分輸入圖像是真實或是虛假影像。
以辨識人臉為例,生成器的目標就是要說服判別器其產生的虛假人臉照為真,判別器的任務就是盡可能分辨出偽照的人臉,並通過一個個像素反饋指導生成器如何改良其合成人臉的真實性,以訓練出一個連判別器都難以分辨真假的神經網路,讓生成的虛構人臉接近真實人臉。
Nvidia早從幾年前就開始使用GAN神經網路進行生成影像的相關研究,不只能夠成功轉換照片裡的天氣、季節以及產生不同照片風格,還能讓生成的擬真動物做出跟真實動物一樣的動作,例如,一隻狗搖耳朵,也能對應到其他以GAN模型生成的貓都能做出同樣動作,甚至也能用在影片人物動作姿態的生成上。
Nvidia首席研究科學家也是GauGAN 計畫主持人劉洺堉表示,GauGAN的前身是由Nvidia團隊去年開發的一種新型生成對抗網路模型pix2pixHD,主要是將經過語義分割後的圖像,透過這個模型轉換成幾可亂真的實景或不同風格照片,比起傳統影像生成效果表現更好。攝影/余至浩) |
劉洺堉指出,GauGAN的前身是另一個生成對抗網路模型pix2pixHD,這個模型是Nvidia團隊在2018年頂尖電腦視覺CVPR會議發表其研究成果時,所採用一種新型生成對抗網路模型,主要是將經過語義分割(Semantic Segmentation)後的圖像,透過這個模型轉換成幾可亂真的實景或不同風格照片。
當輸入一張照片時,只要事先將畫面背景通過一個個色塊進行切割,每一個色塊以不同顏色進行標記,代表不同景色或物體,例如藍色就是天空、綠色就是草地等,再將切割標記後的圖像輸入模型就能生成逼真的影像。GauGAN就是搭建在pix2pixHD之上開發出的最新對抗生成網路框架。
不過與一般歸類非監督學習的GAN不同,他補充,GauGAN則是設計成監督學習方式,來提供生成神經網路學習指引方向,以避免生成圖片偏離原本正確答案太遠。他表示,透過這種生成作法,讓神經網路學習分割圖像到生產擬真圖像的對應過程,如此一來,轉換出來的影像,比起傳統影像生成作法,不只產生的畫面更逼真,也能維持更高影像解析度,例如一張街景照經過GauGAN生成新照片後,不僅可生成不同路面形狀,還可以更換照片中的車體顏色。
以百萬張照當作對抗樣本,搭配DGX-1硬體加快訓練
在設計GauGAN架構時,他們還採用當紅的開源深度學習開發框架PyTorch,來設計出GauGAN背後的神經網路,並使用100萬張的圖像當作訓練樣本,來進行模型訓練。這些影像資料有來自線上相簿Flickr取得的數萬張自然景觀照片,也有從其他資料集取得的圖像,包括COCO-Stuff、ADE20K、Cityscapes等,並持續加入新對抗樣本,他表示,現在,訓練樣本數已增加到500萬張,可供生成器與判別器的訓練使用。
劉洺堉也透露,該團隊還針對這個框架自行開發一個關鍵核心算法SPADE,用來解決舊有pix2pixHD算法在特定場景下容易產生圖像資訊遺失的問題,因為是將語義分割圖直接作為生成網路的輸入進行計算,後來,通過加入SPADE替他們解決了這個難題,可以在加快訓練的同時,也能夠保持產生高度擬真且高品質的實景圖像。還以多層SPADE ResBlk建構生成器的神經網路。
雖然GAN的好處之一是不需要花大量人力標註資料,但仍需要經過大量的數據運算,GauGAN也不例外,在訓練模型時,Nvidia團隊一開始採用了一臺深度學習專用的DGX-1電腦來訓練這個模型,其內含有8個Tesla V100 GPU卡,每張GPU卡內建32GB的記憶體,即使如此,初期也花了3周才完成模型訓練。為了加快訓練速度,該團隊最近則是更進一步整合了新型Tensor Core硬體加速器,以及採用新的加速函式庫AMP來進行GauGAN模型的訓練,來幫助他們縮短訓練時間,只用不到2周就完成。
多達百萬使用者有用,連專業畫家也愛用
隨著GauGAN在6月開放公測以來,使用人數節節攀升,短短數個月,就已累積突破百萬使用者。不僅僅是業餘畫家,就連職業藝術創作者現在繪製概念設計圖時,也都拿它來完成背景的基本構圖,再將這些生成設計圖樣,放進Photoshop或其他後製軟體加工產生出最後的成品,讓創作者能有更多時間花在設計主要構圖上,加快內容創作,也能幫助他們獲取更多設計靈感。
除了生成2D圖像,劉洺堉指出,未來影像生成技術更大的挑戰在於3D影像。尤其,數據分析每多一個維度,就會增加分析複雜度,相較2D數據,3D數據分析更為複雜;其次,在進行3D影像生成時,對於3D物件跟物件的相對關係掌控必須更加準確。
3D訓練樣本不足也是另一個棘手難題。不像2D圖像垂手可得,他指出,3D圖像蒐集不易,即使用生成器生成訓練用的樣本,最多只是讓這個神經網路學到生成器的水準,而且仍需要設計不同3D場景,提供3D生成器產生新場景之用,但如果想要讓生成影像接近自然界的真實樣貌,就需要多用這方面的真實照片來做訓練,「訓練樣本決定了最後影像生成效果的好壞。」他強調。
熱門新聞
2024-10-05
2024-10-07
2024-10-07
2024-10-07
2024-10-07
2024-10-07
2024-10-07