微軟在2022年12月發表預覽版文字生成影像AI軟體Microsoft Designer,是一款能根據使用者文字提示,產生相應圖像、提供可編輯圖文排版的服務,未來將納入訂閱付費服務中。這是一個生成式AI產品化的代表。

生成式AI在2022年大爆發,一些科技大廠開始在自家服務嵌入生成式AI來優化體驗,也有龍頭業者直接打包成產品來供企業使用。生成式AI的應用領域,也從過去的特定用途,走向更廣、更通用的領域。

生成式AI大爆發,看見更多可能性

生成式AI並非這1、2年才出現,而是發展已久的技術。早期的代表架構是生成對抗網路GAN,由一套生成器和鑑別器組成,透過互相競爭來提高產出品質。它最早在2014年出現,代表案例有Nvidia用來生成自駕車訓練資料(如街景環境),他們也打造GauGAN來生成藝術畫作。但GAN有著難以控制生成品質的劣勢。

2017年,另一項架構Transformer橫空出世,它由Google設計,雙向預測能力加上注意力機制,大幅拉高文字處理能力,成為自然語言處理分水嶺。許多著名應用都以它為基礎,比如專精文字理解的Google BERT、善於生成文字內容的OpenAI GPT-2和GPT-3,以及可寫程式、可根據文字生成圖像、可創作各式文字內容的ChatGPT。不過,Transformer的出現也揭開大型語言模型時代,模型參數動輒上百萬、上千億,開發者需要大量資源才能訓練。

另一種代表性架構是去年興起的擴散模型(Diffusion model),特別擅長文字生成圖像,甚至連音檔、影片、3D模型、蛋白質結構等都能生成。OpenAI打造的大型文字生成圖像模型DALL-E、DALL-E 2、GLIDE,以及Google的Imagen都是擴散模型代表案例,而Midjourney、Stable Diffusion這類畫作生成軟體,也都以擴散模型為基礎。這些架構的興起和成熟,不只代表AI生成能力更上層樓,大眾也看見更多可能性。

這些讓人驚豔的可能性,也開始在企業可用領域現蹤。一些科技龍頭開始利用生成式AI來優化自家服務,比如微軟和GitHub聯手推出的程式碼撰寫工具GitHub Copilot,能根據使用者撰寫程式碼的內容,來推薦相應的程式碼,提高工作效率。又或是Nvidia在自家醫療AI框架Clara中,上架一套生成式模型MegaMolBART,可讓使用者用來產生前所未見的分子,進行新藥探索。另一個例子是Salesforce在上個月利用文字生成技術,打造一套摘要工具AI Summarist,能替使用者在企業通訊軟體Slack中,自動摘要重要訊息。

甚至,一些雲端大廠如微軟、AWS、Nvidia也推出套件和開發框架,來支援生成式AI模型開發和訓練。這些生成式AI優化的服務和工具,讓使用者以低成本就能享受高價值應用。

生成式AI商品化更進一步,開始出現個人端工具

還有一種做法是,科技業者直接將生成式AI打包成產品,來供企業或個人使用者使用。比如,微軟採用OpenAI的DALL-E 2模型,在上個月推出文字生成圖像AI軟體Microsoft Designer,使用者輸入簡短文字,系統就能產出相對應圖文內容,並提供幾種可編輯的圖文排版,來供選用。該服務目前為免費預覽版,未來將納入微軟訂閱服務Microsoft 365的應用程式中。

另一個例子是美國行銷文案新創Jasper AI,利用生成式AI模型,來提供部落格文章、行銷文案和社群貼文生成的服務。Japer AI近日也新添文字生成圖片功能,使用者輸入形容詞就能產出圖片。

而Line這2年也不斷宣傳自家企業級服務HyperCLOVA,以Transformer為基礎,可讓企業用來生成行銷文案,甚至對想要打造NLP的企業來說,還能用HyperCLOVA來生成文字訓練資料。

除此之外,坊間也出現不少開源的生成式AI工具,如簡報生成、論文摘要、文案故事生成等,來供一般大眾使用。

這些例子,意味著生成式AI的技術落地可行性和普及性,越來越多非專家使用者也能使用。

下一步:生成式AI的合規性

生成式AI遍地開花的同時,也有不少問題要解決。比如,GitHub Copilot去年就遭集體訴訟,陷入程式碼使用的版權爭議,此外也有藝術創作平臺,反對圖像生成AI使用自家平臺作品。

生成式AI商用之路充滿挑戰,但Adobe有套做法值得借鏡。Adobe旗下素材圖庫Adobe Stock日前宣布,允許使用者在平臺販售AI生成的藝術作品,但前提是,使用者必須標記AI生成內容並取得相關授權。甚至,Adobe還承諾,若出現知識產權糾紛,Adobe將給予賠償。這個賠償做法,替企業採用生成式AI面臨的可能困境,提供一種解方。

 相關報導  

熱門新聞

Advertisement