圖片來源: 

微軟

微軟AI研究院近日於微軟AI部落格中發布開發作畫AI的消息,研究員將此作畫AI稱為作畫機器人(Drawing bot),作畫機器人能夠透過文字描述,產生出與文字對應的圖像。

作畫機器人除了可以產生一般的場景,像是牧場的風景畫,除了正常的畫作外,作畫機器人還能產生像是浮在湖上的雙層巴士圖像,且每個圖像還包含了描述中沒有出現的多個細節,微軟認為,這也意味著,作畫機器人擁有人造的想像力。

負責微軟研究院深度學習技術的首席研究員 Xiaodong He表示,在網路上搜尋一隻鳥,會得到一張鳥的圖片,但是作畫機器人的圖片是由電腦創造出來的,從無到有,一個像素一個像素畫出來的,這些產生的鳥類圖像在現實中或許不存在,但是他們代表了電腦對鳥類想像力的一部分。

過去5年,Xiaodong He與團隊致力於研究電腦視覺和自然語言處理,一開始,他們先開發了一套自動撰寫圖像標題的機器人CaptionBot,之後開始研發能夠回答人類詢問與圖像相關問題的機器人,像是地點、物件的屬性,這個機器人也被認為對盲人有很大的幫助。

接著,團隊著手進行訓練機器學習模型,讓模型能夠辨認物件,描述動作和轉換成自然語言的描述,而現在則是反過來,用文字來產生圖像,團隊中一位博士後研究員Qiuyuan Huang表示,「這是一個循環!」但是,生成影像比影像辨識更具有挑戰性,團隊另一位研究員Pengchuan Zhang補充,由於產生影像的過程中,需要作畫機器人產生對影像細節的想像,也就是說,機器學習的演算法必須能夠創造圖像中消失的部分。

加入GAN並拆解單詞來模擬人類作畫行為

因此,微軟在作畫機器人中,加入對抗式生成網路(Generative Adversarial Network, GAN),最為最核心的技術,對抗式生成網路由2個機器學習的模型組成,一個生成器(Generator)負責生成由文字描述畫出的圖像,另一個則是判別器(Discriminator),用來檢視文字描述與圖像是否相符,反覆不斷訓練,就能促使生成器產生最接近文字描述的圖像。

微軟的作畫機器人採用的訓練資料,是許多由圖像和標題組成的一對數據,這樣能夠讓模型學習文字與影像的配對程度,在對抗式生成網路中,生成器學習到標題是鳥,就要產生鳥的圖片,如此一來,就能夠學習到鳥的圖片是什麼樣貌。

對抗式生成網路對於簡單的文字描述,可以得到不錯的成果,舉例來說,像是藍色的鳥或是常青樹,但是對於較複雜的文字描述,對抗式生成網路所產生的圖像品質就會降低,像是一隻有綠色冠、黃色翅膀和紅色肚子的鳥,主要是因為整個句子對生成器言,是單一個Input,描述中的細節資訊也不見了,因此,產生的圖像會變成混合綠色、黃色和紅色的模糊圖像。

若是由人類來作畫,我們會不斷的注意且確認每個單詞的描述,來對應到作畫的區域,簡單來說,給予一般人一個作畫的描述,比如說畫出黃色的身體、黑色翅膀和短喙的鳥,大部分的人會先描繪出鳥的輪廓,再重新看一次文字描述,看到要畫黃色的身體才去找黃色的筆來塗滿鳥的身軀,再看一次描述,拿起黑色的筆開始畫翅膀,持續這樣的步驟來來回回,最後確認畫出的圖像與描述相符。

為了要擷取人類這項作畫的特徵,研究人員創造了一套名為attentional GAN或是AttnGAN的神經網路,藉由將文字描述拆解為個別的單詞,並將這些詞與作畫的區域互相配對,來實現模擬人類作畫的行為,也就是在訓練AI產生圖像時,聚焦於個別的單詞,像是類似標題的文字描述,如此一來,相較於傳統的文字轉圖像方法,此方法所產生的圖像品質提升了3倍。「注意力是人類的概念,我們用數學將注意力變成可運算的。」 Xiaodong He說。

AttnGAN還能從訓練資料中學習人類的常識,將這樣的知識萃取出來後,填補文字描述中缺少的圖像細節,舉例來說,因為許多在訓練資料中的鳥類圖片都是鳥坐在樹枝上,因此,AttnGAN產生的圖像,也幾乎都是鳥在坐在樹枝上的圖像。

從資料中,機器學習演算法學習到通常鳥類都會在哪裡的常識,為了測試,團隊給予作畫機器人一些非正常的標題,像是一臺紅色的雙層巴士浮在湖上,作畫機器人產生了一張模糊潮濕的圖像,圖像中包含了一艘船和一臺雙層巴士浮在湖上,周圍被山包圍,這樣的圖像展示了,作畫機器人在產生文字描述的圖像和常識中,有點掙扎。

Xiaodong He表示,研究員能夠控制描述和機器的反應,因此能夠測試機器學習到了什麼,他們認為,機器學習到了一些背景知識,也就是常識,不過,還是得根據不同的描述情況而定,有時候作畫機器人產生的圖像也會不太合理。

未來,作畫機器人的文字轉圖像技術可以協助畫家素描,或是協助室內設計師,這項技術也可以成為調整有聲圖片的工具,藉由更多的運算能力,微軟認為這項文字轉圖像技術能夠透過劇本產生動畫,減少一些需要人工處理的部分工作。

微軟表示,現在這項科技還不夠完美,仔細的檢查圖像還是會發現缺陷,像是鳥喙是藍色而不是黑色,水果也會出現突變的香蕉,這些缺陷明顯是電腦作畫才會犯的錯誤,但是,若要人類和AI共存在同一個世界中,我們必須找到一個方法互動,語言和影像是2個人類與機器互動最重要的模式。


Advertisement

更多 iThome相關內容