針對文字描述「以油畫呈現具備爆炸效果與張力的灌籃動作」,DALL·E 3的生成內容明顯比DALL·E 2更突出。(圖片來源/OpenAI)

OpenAI本周對外揭露了新一代的文字轉圖像模型DALL·E 3,指出該模型不但更能精確地以圖像呈現使用者所輸入的文字描述,亦允許使用者利用ChatGPT來產生不同的文字描述與相對應的圖像。現階段DALL·E 3尚處於研究預覽階段,預計於10月供應給ChatGPT Plus及ChatGPT Enterprise客戶。

OpenAI指出,現代的文字轉圖像系統傾向於忽視文字或描述,迫使使用者學習如何輸入提示,但DALL·E 3在如何精確依照使用者所輸入的文字,來生成圖像的能力上,卻有著跳躍式的成長。

例如得以文字描繪「一個有著明月照耀的熙攘街道,一名身穿天鵝絨斗篷的年輕紅髮女子與穿著筆挺西裝的老商人正在討價還價,老商人一方面還在講著蒸汽朋克電話」DALL·E 3即可生成驚人的畫面。

圖片來源_OpenAI

就算在DALL·E 3中輸入與DALL·E 2同樣的文字描述,要求「以油畫呈現具備爆炸效果與張力的灌籃動作」,DALL·E 3的表現明顯更加突出。

此外,使用者還可藉由ChatGPT的協助來生成文字敘述,只要在ChatGPT中輸入簡單的句子,告訴它你想看到的畫面,ChatGPT便會自動生成詳細的敘述以用來輸入DALL·E 3,而且ChatGPT還能生成不同的描述,一直到DALL·E 3所產生的畫面符合使用者的需求。

對於透過DALL·E 2或DALL·E 3所生成的畫面,使用者都可自由使用,不需OpenAI的許可便可重印或出售。

至於對DALL·E 3的限制則與DALL·E 2差不多,OpenAI限制了DALL·E 3生成暴力、成人或有害內容的能力,也會拒絕使用者要求生成仍在世的藝術家風格圖像的請求。

熱門新聞

Advertisement