非營利人工智慧研究組織OpenAI訓練了一個稱為DALL·E的神經網路,可讓使用者以自然語言文字註解,創建內容相符的圖像。而DALL·E的名稱由來,來自西班牙加泰隆尼亞超現實主義畫家薩爾瓦多·達利(Salvador Dalí),以及皮克斯動畫人物瓦力(WALL·E)的混合詞。

DALL·E是一個具有120億個參數的GPT-3語言模型,經過文字圖像配對資料集訓練,可以從文字敘述生成圖像。DALL·E具有豐富的功能,除了創建擬人化動物與物體,還能以合理的方式組合不相關的概念,而渲染文字以及轉換圖像等工作,也都難不倒DALL·E。

研究人員提到,GPT-3的出現,代表語言已經可以用來指示大型神經網路,執行各種文字生成工作,而圖像GPT代表著類似於GPT-3的神經網路,也可以用來產生高解析度的圖像,而OpenAI擴展了兩者的概念,DALL·E的貢獻在於證明人們已經可以透過語言,來操縱神經網路所產生的視覺概念。

就如同GPT-3一樣,DALL·E是一個變換語言模型(Transformer Language Model),其以包含多達1,280個權杖(Token)的單一串流,接收文字以及圖像,並使用最大可能性,一個接一個地生成所有權杖。由於這個訓練過程,讓DALL·E不只能夠以文字提示一致的方式,從頭開始產生圖像,還能夠順著既有圖像,重新生成符合文字敘述的圖像。

DALL·E能夠探索語言結構的組成,從大量不同的句子中產生合理的圖像。研究人員發現,DALL·E具有控制物體屬性的能力,像是可渲染多邊形物體,即便有些物體在現實世界不太可能出現,但DALL在繪製時,仍會考慮其合理性,例如DALL·E在繪製像框或是畫框,會傾向避開七邊形,而人孔蓋或是停車標誌,DALL·E較不會使用五邊形等特殊形狀。

除了單一物體之外,DALL·E也有能力以不同的視角,繪製完整的場景圖片,像是輸入文字an extreme close-up view of a capybara sitting in a field,則DALL·E就能產生大量近距離,水豚坐在空地上的圖片,官方提到,DALL·E能以各種視角繪製動物,要從鳥瞰圖和後視圖視角繪製動物,DALL·E需要從不同角度了解動物的外觀,而諸如像是特寫鏡頭,則關乎DALL·E對動物毛皮細節的了解程度。為了測試DALL·E繪製不同視角物體的能力,研究人員讓DALL·E以等角度間隔,繪製同一個頭部圖像,而這些圖像串接起來,可以形成一個平順的頭部旋轉動畫。

而當收到的指令不夠明確,DALL·E還會自動推斷出背景細節,像是a painting of a capybara sitting on a field at sunrise這樣的文字描述,依照繪製水豚的朝向,可能需要畫出陰影,雖然文字敘述沒有明確提及,但是DALL·E仍可以正確地畫出合理的陰影。

DALL·E還有一個強大的能力,可以結合不同的概念繪製成合理物體圖像,像是要DALL·E繪製出酪梨形狀的扶手椅,DALL·E便能產生同時考量兩者形狀的椅子,酪梨形狀外型通常會與椅背相關聯,而酪梨的果核凹槽,則會與椅墊相關聯。

由於DALL·E的能力過於強大,可能會對人類社會產生廣泛的影響,因此OpenAI將計畫分析像是DALL·E這樣的模型,對社會所產生的影響,包括特定工作流程以及專業的經濟衝擊,還有這個技術所存在的潛在偏差,以及長期在道德上挑戰。


熱門新聞

Advertisement