微軟舉例,以Transformer打造的多任務AI模型Florence v1.0,可用來優化自動加註圖說功能。未優化前,該功能形容一張照片是一群棒球員站在草皮場上,優化後則是一群橄欖球員正在慶祝,更貼切照片內容。

圖片來源: 

微軟

一套模型通吃多任務,是邁向通用AI的關鍵一步。這個頂尖專家努力鑽研數十年的題目,在2021年,有了新的大變化。各大科技巨頭相繼發現,原本擅長自然語言處理(NLP)的Transformer架構,也能用來同時解決文字、影像,甚至是影片等不同模態的任務,效果還更好。

比如在2021年10月,微軟亞洲研究院揭露了一款超強OCR工具TrOCR,完全不需要電腦視覺專用的卷積網路(CNN),單用一套Transformer就能辨識影像和生成文字,手寫辨識和影印辨識兩種任務更達到高階水準。

OCR工具用途廣泛,銀行票據手寫辨識、街景招牌辨識、發票辨識都少不了它,如何讓數位世界理解真實世界資訊的意義,OCR正是最關鍵的核心技術。這個技術的演進,帶來的不只是應用面的提升,更是會對虛實整合應用帶來根本性的影響,例如企業就更容易將實體流程,串接到數位應用上,來展開更自動化的流程。

Transformer:從跨域嚐鮮到快速爆發

Transformer架構是這場多任務、多模態AI競賽的主角。它是NLP專用架構,2017年問世後,改寫了NLP設計思維,堪稱NLP分水嶺的大型語言預訓練模型BERT和能生成真人難以辨識文章的模型GPT-3,都以Transformer為基礎。

2020年夏天,臉書開出第一槍,將Transformer用於文字處理以外的電腦視覺任務,打造一套影像辨識模型DETR,不僅簡化了辨識工作,表現還達到Faster R-CNN般的高階水準。Google也緊追在後,以Transformer實作電腦視覺任務,打造出廣受AI社群愛戴的影像辨識模型ViT,號稱比CNN網路更有效率。

這兩項研究一發表,立刻引起各大AI領袖和ML社群關注,因為,兩大巨頭都證實了Transformer的電腦視覺潛力,很可能擠下獨佔鼇頭的CNN。他們也證明,Transformer有能力處理不同模態的任務。

兩大巨頭的研究揭開序幕後,2021年迎來Transformer多任務、多模態AI的快速爆發潮。就重點模型來說,年初,OpenAI先是以Transformer架構打造可同時處理影像和文字這兩種模態資料的模型DALL·E,號稱是影像版GPT-3,還推出能配對文字和圖片的CLIP模型。臉書也隨之發表一系列Transformer改良模型,其一是UniT,能同步處理兩種模態資料和7種任務,NLP、自然語言理解(NLU)、影像辨識、物件偵測等任務都能解。

年中,Google在自家年度開發大會I/O上,首度揭露兩款能同時處理文字和影像的Transformer模型MUM與LaMDA,甚至還預告要用來改善Google搜尋的使用者體驗。同時,北京智源AI研究院釋出的悟道2.0模型,不只能文生文、圖生文,還能圖文生文,興詩作詞、文案和影像生成都不是問題。

而DeepMind,也用Transformer打造精準預測蛋白質結構的AlphaFold 2,再次證明Transformer的普適性。DeepMind後來還發表跨模態模型Perceiver IO,能精準分類文本、影像、影片和用來表示物件外觀的點雲數據。

從研究實驗走向商用化,企業將有更多選擇

雖然這些多任務、多模態AI系統多處於研究實驗階段,但也有些已在實用上拿下好成績。比如,史丹佛大學開源一套Transformer模型ConVIRT,可自動替X光片加上文字註解。臉書則利用多模態模型來偵測仇恨言論,能一次閱讀文字、圖片和影片等內容並歸類為有害或無害。

甚至,微軟年底發展出新一代電腦視覺基礎模型Florence v1.0,除了通吃各電腦視覺任務外,還能處理影像與文字任務,拿下TextCaps等多項挑戰賽榜首。但這不單是研究成果,微軟強調,Florence v1.0已整合至Azure雲平臺,來優化自動添加圖說、加標籤、自定義物件偵測等功能。

微軟更透露,Florence系列模型未來還能作為預訓練模型,企業只要提供少樣本資料,就能微調模型,打造成所需的預測系統。而且,微軟還打算用Florence模型來改善微軟365的智慧相片功能,以及產業雲中的商品圖片合規性檢查。

在公雲業者手上,多任務AI已經開始成為商用化產品的新服務。按照微軟近年加速將AI技術商品化的策略,開頭提到的OCR工具TrOCR,很可能明年就用來改善微軟原有的企業級OCR服務,甚至打造成一項新服務,供企業用來打造自己的OCR工具。

搶進Transformer多任務、多模態AI商機的不只微軟。Line在年末的全球開發者大會中,揭露一款企業級AI服務HyperCLOVA,該服務就以同名的大型多語言模型HyperCLOVA為核心,不只能生成廣告文案、摘要等,還能作為企業訓練NLP模型的幫手,比如產生訓練資料集、開放預訓練模型來讓企業使用者微調。Line預告,接下來,他們還要讓HyperCLOVA學會處理影像資訊,來提供結合圖文分析能力的服務。

對企業來說,明年,將見到更多以Transformer為基礎的多任務、多模態AI服務,不僅不需要耗費訓練成本自行開發,這些模型,還將提供更多新選擇。像是,多任務多模態AI中,圖片辨識AI、OCR文字AI結合成單一的圖文AI服務,就已跨出商品化的第一步:微軟Florence已成為Azure平臺認知服務的加值功能,也有機會變成企業可以客製使用的獨立服務。

許多紙本文件、實體物品上的文字,都需要透過OCR技術,若進一步運用圖文AI,一次取得文字和影像,讓數位世界的App能同步取得文字意義和影像來展開互動,當這樣的多任務多模態AI商用化之後,不只衝擊企業流程自動化,也能帶來更多企業虛實整合應用的新可能。文⊙王若樸


熱門新聞

Advertisement