GauGAN AI作畫技術大公開

隨著GauGAN在6月開放公測以來，現在一般人也能畫出媲美藝術大師水準的作品。作畫者只要在上圖網頁左側的畫框空白處，以色筆繪製出基本輪廓圖，就可以利用GauGAN工具將畫好的塗鴉轉換成擬真的風景照，並顯示在網頁右側畫框，還可以套用不同效果濾鏡與繪畫風格，來對應不同光影或天候型態。

圖片來源:

Nvidia

今年3月GTC大會，Nvidia首次展示一項AI作畫應用GauGAN，可以根據使用者畫的簡單圖像，自動生產一個擬真的實景圖，還能將作品轉變成不同時期藝術風格的畫作，讓即使是菜鳥畫家，也能畫出有如藝術大師水準的風景畫。隨後也在6月推出公開測試版，讓大家可以試用，結果一推出就大獲好評，短短一個月，使用GauGAN生成新圖像就多達50萬張，就連專業畫家也愛不釋手。Nvidia首席研究科學家，也是GauGAN計畫主持人劉洺堉近日來臺也揭露更多技術細節。

以生成式對抗網路GAN，讓神經網路學習人類作畫

GauGAN其實就是一個AI作畫工具，經由AI來幫助人類作畫，劉洺堉表示，透過這項工具，只要簡單輸入一張草稿圖或是手繪圖，就能轉換成不同風格的圖像。它也提供畫筆和油漆桶等繪圖工具，讓使用者可以在網頁上即時作畫。

作畫的人只要在網頁上的畫框空白處，簡單畫出輪廓圖用來顯示場景中每個物體的位置，就能利用GauGAN這個工具將畫好的塗鴉轉換為有如桌布上逼真的風景照，不僅可以分別出影像中物體的遠近，帶出景深感，就連陰影、材質紋路都可以逼真重現。

使用者邊畫的同時，還可以邊查看創作的成果，再以帶有不同標籤的色筆替自己的畫作增加或更換不同場景，就能自動在原圖中產生對應的擬真景色，例如，河流、岩石、沙地、海灘、天空、雪地、樹木及海水等；另外也可以套用不同效果濾鏡與繪畫風格，讓一張圖片可以同時呈現不同的光影效果或對應不同的天候、季節。「關鍵就是透過生成式對抗網路GAN（Generative Adversarial Network）來訓練深度學習模型。」劉洺堉說。

在設計GauGAN生成網路架構時，Nvidia團隊除了採用臉書開源的深度學習開發框架PyTorch，來設計出GauGAN背後的神經網路，還自行開發一個關鍵核心算法SPADE，用來解決舊有pix2pixHD算法在特定場景下容易產生圖像資訊遺失的問題，以維持高品質的影像生成效果。圖片來源／Nvidia

GauGAN是以pix2pixHD為原型打造的深度生成模型

目前AI生成影像的常見作法，主要採用深度學習建立深度生成模型（Deep Generative Models），其中又以生成式對抗網路GAN近年來最受矚目。劉洺堉表示，GAN是由兩個神經網路組成，一個是隨機合成新樣本的生成器（Generator），另一個則是比較生成樣本與訓練樣本差異的判別器（Discriminator），用以區分輸入圖像是真實或是虛假影像。

以辨識人臉為例，生成器的目標就是要說服判別器其產生的虛假人臉照為真，判別器的任務就是盡可能分辨出偽照的人臉，並通過一個個像素反饋指導生成器如何改良其合成人臉的真實性，以訓練出一個連判別器都難以分辨真假的神經網路，讓生成的虛構人臉接近真實人臉。

Nvidia早從幾年前就開始使用GAN神經網路進行生成影像的相關研究，不只能夠成功轉換照片裡的天氣、季節以及產生不同照片風格，還能讓生成的擬真動物做出跟真實動物一樣的動作，例如，一隻狗搖耳朵，也能對應到其他以GAN模型生成的貓都能做出同樣動作，甚至也能用在影片人物動作姿態的生成上。

Nvidia首席研究科學家也是GauGAN 計畫主持人劉洺堉表示，GauGAN的前身是由Nvidia團隊去年開發的一種新型生成對抗網路模型pix2pixHD，主要是將經過語義分割後的圖像，透過這個模型轉換成幾可亂真的實景或不同風格照片，比起傳統影像生成效果表現更好。攝影／余至浩）

劉洺堉指出，GauGAN的前身是另一個生成對抗網路模型pix2pixHD，這個模型是Nvidia團隊在2018年頂尖電腦視覺CVPR會議發表其研究成果時，所採用一種新型生成對抗網路模型，主要是將經過語義分割（Semantic Segmentation）後的圖像，透過這個模型轉換成幾可亂真的實景或不同風格照片。

當輸入一張照片時，只要事先將畫面背景通過一個個色塊進行切割，每一個色塊以不同顏色進行標記，代表不同景色或物體，例如藍色就是天空、綠色就是草地等，再將切割標記後的圖像輸入模型就能生成逼真的影像。GauGAN就是搭建在pix2pixHD之上開發出的最新對抗生成網路框架。

不過與一般歸類非監督學習的GAN不同，他補充，GauGAN則是設計成監督學習方式，來提供生成神經網路學習指引方向，以避免生成圖片偏離原本正確答案太遠。他表示，透過這種生成作法，讓神經網路學習分割圖像到生產擬真圖像的對應過程，如此一來，轉換出來的影像，比起傳統影像生成作法，不只產生的畫面更逼真，也能維持更高影像解析度，例如一張街景照經過GauGAN生成新照片後，不僅可生成不同路面形狀，還可以更換照片中的車體顏色。

以百萬張照當作對抗樣本，搭配DGX-1硬體加快訓練

在設計GauGAN架構時，他們還採用當紅的開源深度學習開發框架PyTorch，來設計出GauGAN背後的神經網路，並使用100萬張的圖像當作訓練樣本，來進行模型訓練。這些影像資料有來自線上相簿Flickr取得的數萬張自然景觀照片，也有從其他資料集取得的圖像，包括COCO-Stuff、ADE20K、Cityscapes等，並持續加入新對抗樣本，他表示，現在，訓練樣本數已增加到500萬張，可供生成器與判別器的訓練使用。

劉洺堉也透露，該團隊還針對這個框架自行開發一個關鍵核心算法SPADE，用來解決舊有pix2pixHD算法在特定場景下容易產生圖像資訊遺失的問題，因為是將語義分割圖直接作為生成網路的輸入進行計算，後來，通過加入SPADE替他們解決了這個難題，可以在加快訓練的同時，也能夠保持產生高度擬真且高品質的實景圖像。還以多層SPADE ResBlk建構生成器的神經網路。

雖然GAN的好處之一是不需要花大量人力標註資料，但仍需要經過大量的數據運算，GauGAN也不例外，在訓練模型時，Nvidia團隊一開始採用了一臺深度學習專用的DGX-1電腦來訓練這個模型，其內含有8個Tesla V100 GPU卡，每張GPU卡內建32GB的記憶體，即使如此，初期也花了3周才完成模型訓練。為了加快訓練速度，該團隊最近則是更進一步整合了新型Tensor Core硬體加速器，以及採用新的加速函式庫AMP來進行GauGAN模型的訓練，來幫助他們縮短訓練時間，只用不到2周就完成。

多達百萬使用者有用，連專業畫家也愛用

隨著GauGAN在6月開放公測以來，使用人數節節攀升，短短數個月，就已累積突破百萬使用者。不僅僅是業餘畫家，就連職業藝術創作者現在繪製概念設計圖時，也都拿它來完成背景的基本構圖，再將這些生成設計圖樣，放進Photoshop或其他後製軟體加工產生出最後的成品，讓創作者能有更多時間花在設計主要構圖上，加快內容創作，也能幫助他們獲取更多設計靈感。

除了生成2D圖像，劉洺堉指出，未來影像生成技術更大的挑戰在於3D影像。尤其，數據分析每多一個維度，就會增加分析複雜度，相較2D數據，3D數據分析更為複雜；其次，在進行3D影像生成時，對於3D物件跟物件的相對關係掌控必須更加準確。

3D訓練樣本不足也是另一個棘手難題。不像2D圖像垂手可得，他指出，3D圖像蒐集不易，即使用生成器生成訓練用的樣本，最多只是讓這個神經網路學到生成器的水準，而且仍需要設計不同3D場景，提供3D生成器產生新場景之用，但如果想要讓生成影像接近自然界的真實樣貌，就需要多用這方面的真實照片來做訓練，「訓練樣本決定了最後影像生成效果的好壞。」他強調。

以生成式對抗網路GAN，讓神經網路學習人類作畫

GauGAN是以pix2pixHD為原型打造的深度生成模型

以百萬張照當作對抗樣本，搭配DGX-1硬體加快訓練

多達百萬使用者有用，連專業畫家也愛用

熱門新聞