微軟打造AI繪圖機器人，靠文字描述就能產生栩栩如生的圖像

圖片來源:

Microsoft

微軟深度學習技術中心的研究團隊上周展示了最新的AttnGAN技術研究成果，打造一個AI繪圖機器人（drawing bot），能夠藉由文字敘述畫出栩栩如生的圖像，還能加上AI想像力，號稱繪圖品質是前一代GAN技術的3倍。

繪圖機器人的基礎為電腦視覺與自然語言處理技術，過去研究人員利用這些技術創造了自動圖說撰寫工具，以及能根據圖片回答問題的機制，現在研究人員則反過來利用文字敘述來創造圖像。

該團隊的副研究人員Pengchuan Zhang表示，產生圖像比寫圖說還要難上許多，因為這需要繪圖機器人想像文字中所缺乏的元素。

繪圖機器人的核心技術為生成對抗網路（Generative Adversarial Network，GAN），它是由兩個機器學習模型所構成，一個用來自文字產生圖像，另一個則依照文字敘述來驗證前者所產生之圖像的真偽，透過彼此間的較勁來達到更完美的成果。

GAN可成功輸出簡單描述的圖像，如藍鳥或是綠樹等，但卻無法滿足更複雜的描述，諸如有綠冠、黃色翅膀及紅色肚子的小鳥，這是因為整個句子被視為單一輸入，遺漏了細節，所以只會產出模糊的鳥兒圖像。

因此，研究人員把人類對物件的常識及對文字的關注能力注入了GAN，形成新的AttnGAN，可把所輸入的文字個別處理，也就能產生更細緻的圖像。如此一來，AttnGAN除了可創造更栩栩如生的圖像之外，也能根據常識讓鳥兒站在樹枝上。

此外，基於AttnGAN的繪圖機器人也能繪出非常態的荒誕圖像，例如飄在湖面上的雙層巴士。

深度學習技術中心的首席研究人員Xiaodong He說，未來使用者透過Bing搜尋鳥類時，可能會看到一隻不存在於真實世界、完全由AI系統想像及建置出來的鳥。

此一文字轉圖像的技術可望被應用在不同的場景中，諸如作為畫家或室內設計師的素描助理，也能成為支援語音的照片優化工具。

熱門新聞