【展望後疫2022年新趨勢5】多任務多模態AI加速商品化，企業流程虛實整合有更多新選擇

微軟舉例，以Transformer打造的多任務AI模型Florence v1.0，可用來優化自動加註圖說功能。未優化前，該功能形容一張照片是一群棒球員站在草皮場上，優化後則是一群橄欖球員正在慶祝，更貼切照片內容。

圖片來源:

微軟

一套模型通吃多任務，是邁向通用AI的關鍵一步。這個頂尖專家努力鑽研數十年的題目，在2021年，有了新的大變化。各大科技巨頭相繼發現，原本擅長自然語言處理（NLP）的Transformer架構，也能用來同時解決文字、影像，甚至是影片等不同模態的任務，效果還更好。

比如在2021年10月，微軟亞洲研究院揭露了一款超強OCR工具TrOCR，完全不需要電腦視覺專用的卷積網路（CNN），單用一套Transformer就能辨識影像和生成文字，手寫辨識和影印辨識兩種任務更達到高階水準。

OCR工具用途廣泛，銀行票據手寫辨識、街景招牌辨識、發票辨識都少不了它，如何讓數位世界理解真實世界資訊的意義，OCR正是最關鍵的核心技術。這個技術的演進，帶來的不只是應用面的提升，更是會對虛實整合應用帶來根本性的影響，例如企業就更容易將實體流程，串接到數位應用上，來展開更自動化的流程。

Transformer：從跨域嚐鮮到快速爆發

Transformer架構是這場多任務、多模態AI競賽的主角。它是NLP專用架構，2017年問世後，改寫了NLP設計思維，堪稱NLP分水嶺的大型語言預訓練模型BERT和能生成真人難以辨識文章的模型GPT-3，都以Transformer為基礎。

2020年夏天，臉書開出第一槍，將Transformer用於文字處理以外的電腦視覺任務，打造一套影像辨識模型DETR，不僅簡化了辨識工作，表現還達到Faster R-CNN般的高階水準。Google也緊追在後，以Transformer實作電腦視覺任務，打造出廣受AI社群愛戴的影像辨識模型ViT，號稱比CNN網路更有效率。

這兩項研究一發表，立刻引起各大AI領袖和ML社群關注，因為，兩大巨頭都證實了Transformer的電腦視覺潛力，很可能擠下獨佔鼇頭的CNN。他們也證明，Transformer有能力處理不同模態的任務。

兩大巨頭的研究揭開序幕後，2021年迎來Transformer多任務、多模態AI的快速爆發潮。就重點模型來說，年初，OpenAI先是以Transformer架構打造可同時處理影像和文字這兩種模態資料的模型DALL·E，號稱是影像版GPT-3，還推出能配對文字和圖片的CLIP模型。臉書也隨之發表一系列Transformer改良模型，其一是UniT，能同步處理兩種模態資料和7種任務，NLP、自然語言理解（NLU）、影像辨識、物件偵測等任務都能解。

年中，Google在自家年度開發大會I/O上，首度揭露兩款能同時處理文字和影像的Transformer模型MUM與LaMDA，甚至還預告要用來改善Google搜尋的使用者體驗。同時，北京智源AI研究院釋出的悟道2.0模型，不只能文生文、圖生文，還能圖文生文，興詩作詞、文案和影像生成都不是問題。

而DeepMind，也用Transformer打造精準預測蛋白質結構的AlphaFold 2，再次證明Transformer的普適性。DeepMind後來還發表跨模態模型Perceiver IO，能精準分類文本、影像、影片和用來表示物件外觀的點雲數據。

從研究實驗走向商用化，企業將有更多選擇

雖然這些多任務、多模態AI系統多處於研究實驗階段，但也有些已在實用上拿下好成績。比如，史丹佛大學開源一套Transformer模型ConVIRT，可自動替X光片加上文字註解。臉書則利用多模態模型來偵測仇恨言論，能一次閱讀文字、圖片和影片等內容並歸類為有害或無害。

甚至，微軟年底發展出新一代電腦視覺基礎模型Florence v1.0，除了通吃各電腦視覺任務外，還能處理影像與文字任務，拿下TextCaps等多項挑戰賽榜首。但這不單是研究成果，微軟強調，Florence v1.0已整合至Azure雲平臺，來優化自動添加圖說、加標籤、自定義物件偵測等功能。

微軟更透露，Florence系列模型未來還能作為預訓練模型，企業只要提供少樣本資料，就能微調模型，打造成所需的預測系統。而且，微軟還打算用Florence模型來改善微軟365的智慧相片功能，以及產業雲中的商品圖片合規性檢查。

在公雲業者手上，多任務AI已經開始成為商用化產品的新服務。按照微軟近年加速將AI技術商品化的策略，開頭提到的OCR工具TrOCR，很可能明年就用來改善微軟原有的企業級OCR服務，甚至打造成一項新服務，供企業用來打造自己的OCR工具。

搶進Transformer多任務、多模態AI商機的不只微軟。Line在年末的全球開發者大會中，揭露一款企業級AI服務HyperCLOVA，該服務就以同名的大型多語言模型HyperCLOVA為核心，不只能生成廣告文案、摘要等，還能作為企業訓練NLP模型的幫手，比如產生訓練資料集、開放預訓練模型來讓企業使用者微調。Line預告，接下來，他們還要讓HyperCLOVA學會處理影像資訊，來提供結合圖文分析能力的服務。

對企業來說，明年，將見到更多以Transformer為基礎的多任務、多模態AI服務，不僅不需要耗費訓練成本自行開發，這些模型，還將提供更多新選擇。像是，多任務多模態AI中，圖片辨識AI、OCR文字AI結合成單一的圖文AI服務，就已跨出商品化的第一步：微軟Florence已成為Azure平臺認知服務的加值功能，也有機會變成企業可以客製使用的獨立服務。

許多紙本文件、實體物品上的文字，都需要透過OCR技術，若進一步運用圖文AI，一次取得文字和影像，讓數位世界的App能同步取得文字意義和影像來展開互動，當這樣的多任務多模態AI商用化之後，不只衝擊企業流程自動化，也能帶來更多企業虛實整合應用的新可能。文⊙王若樸

熱門新聞