圖片來源: 

Microsoft

微軟深度學習技術中心的研究團隊上周展示了最新的AttnGAN技術研究成果,打造一個AI繪圖機器人(drawing bot),能夠藉由文字敘述畫出栩栩如生的圖像,還能加上AI想像力,號稱繪圖品質是前一代GAN技術的3倍。

繪圖機器人的基礎為電腦視覺與自然語言處理技術,過去研究人員利用這些技術創造了自動圖說撰寫工具,以及能根據圖片回答問題的機制,現在研究人員則反過來利用文字敘述來創造圖像。

該團隊的副研究人員Pengchuan Zhang表示,產生圖像比寫圖說還要難上許多,因為這需要繪圖機器人想像文字中所缺乏的元素。

繪圖機器人的核心技術為生成對抗網路(Generative Adversarial Network,GAN),它是由兩個機器學習模型所構成,一個用來自文字產生圖像,另一個則依照文字敘述來驗證前者所產生之圖像的真偽,透過彼此間的較勁來達到更完美的成果。

GAN可成功輸出簡單描述的圖像,如藍鳥或是綠樹等,但卻無法滿足更複雜的描述,諸如有綠冠、黃色翅膀及紅色肚子的小鳥,這是因為整個句子被視為單一輸入,遺漏了細節,所以只會產出模糊的鳥兒圖像。

因此,研究人員把人類對物件的常識及對文字的關注能力注入了GAN,形成新的AttnGAN,可把所輸入的文字個別處理,也就能產生更細緻的圖像。如此一來,AttnGAN除了可創造更栩栩如生的圖像之外,也能根據常識讓鳥兒站在樹枝上。

此外,基於AttnGAN的繪圖機器人也能繪出非常態的荒誕圖像,例如飄在湖面上的雙層巴士。

深度學習技術中心的首席研究人員Xiaodong He說,未來使用者透過Bing搜尋鳥類時,可能會看到一隻不存在於真實世界、完全由AI系統想像及建置出來的鳥。

此一文字轉圖像的技術可望被應用在不同的場景中,諸如作為畫家或室內設計師的素描助理,也能成為支援語音的照片優化工具。

熱門新聞

Advertisement