AI趨勢周報第182期：吳恩達看2022年AI趨勢：多模態AI起飛

DeepMind意外發展一套參數量達2,800億的Transformer語言模型Gopher，閱讀理解力可媲美高中生。

重點新聞(1224～1230)

吳恩達 AI趨勢 多模態AI

吳恩達看2022年AI趨勢：多模態AI起飛、參數破兆模型會更多

AI專家吳恩達日前分享2022年AI趨勢預測，第一就是多模態AI將起飛。多模態是指不同類型的資料，比如文字、影像、音訊、影片等。在過去，AI模型幾乎只能處理單一模態任務，比如只限於文字或電腦視覺。但2021年出現不少多模態AI成果，比如OpenAI發表CLIP和DALL·E模型，能同時處理文字和影像，靠輸入文字就能產生圖片。Google也發表2套跨75種語言的多模態模型，要用來優化自家搜尋服務。

另一個趨勢是，2022年將出現更多參數破兆的模型。「過去一年，模型從大型往更大型發展，」吳恩達盤點，2021年初，Google發表史上首個參數破兆的模型Switch Transformer（1.6兆），北京AI研究員智源後來則發表1.75兆參數的超大模型悟道2.0。他點出，單純增加參數並無好處，但隨著算力和資料來源的增長，深度學習發展出「越打越好」的原則。於是，財力雄厚的AI大廠奮力斥資研發超大模型，特別是NLP領域模型。但這種超大模型要實用，還有些挑戰，比如需要更多高品質的訓練資料、模型推論速度緩慢、消耗大量電力，以及難以在消費級的邊緣裝置上執行。

吳恩達也提出其他AI趨勢預測，包括Transformer單一架構將駕馭更多任務、AI產生音檔成主流、各國祭出AI法規等。（詳全文）

DeepMind 大型語言模型 Gopher

理解力媲美高中生！DeepMind無心插柳柳成蔭，造出超大語言模型Gopher

DeepMind最近發表一套超大語言模型Gopher，閱讀理解力可比高中生。不過，Gopher並非DeepMind有意為之，而是在探討通用AI的過程中意外發展出來的。當時，團隊打造了一系列不同大小的Transformer模型，參數量從4,400萬個到2,800億個，而參數最多的模型就是Gopher。

這個Gopher學習大量文字資料後，可大幅提升閱讀理解能力，在高中的閱讀理解測試中拿下高分，接近人類表現。甚至，Gopher能夠與人進行完整對話，連貫性和流暢度都驚豔了研究團隊。DeepMind後來透露，催生出Gopher的專案，是為了探討通用AI的可能，也就是像人一樣能推理思考、具備認知能力的AI。研究主流認為，以巨量資料訓練超大型模型，是打造通用AI的關鍵，而DeepMind打造一系列不同大小的Transformer模型，來研究這些模型的優缺點，以及找出增加參數規模就能提高表現的領域。（詳全文）

Azure Florence 電腦視覺

微軟用Transformer打造通吃多種CV任務的多模態AI，還用來優化Azure認知服務

微軟用Transformer架構打造一款新模型Florence v1.0，不只通吃多種電腦視覺任務，還能處理影像-文字任務，最近更拿下TextCaps等多項挑戰賽冠軍。微軟透露，該模型已整合至Azure雲平臺，來優化自動添加圖說、加標籤、自定義物件偵測等功能。今年以來，各大科技巨頭瘋搶多模態、多任務的Transformer研究，但微軟是少數已將研究成果用來改善服務的大廠。

微軟表示，去年，他們發起Florence專案，目標是要研發新電腦視覺模型，來改善自家服務，甚至用來創造新企業級服務。這次發表Florence v1.0後，微軟指出，Florence系列模型未來還能作為預訓練模型服務，企業用戶只要提供少樣本資料，就能微調模型，打造成所需的預測系統。而且，微軟還打算用Florence模型來改善微軟365的智慧相片功能，以及產業雲中的商品圖片合規性檢查。（詳全文）

達摩院 綠能 AI

阿里達摩院發表2022年科技趨勢預測：綠能AI崛起

達摩院日前發布2022年十大科技趨勢，其中強調綠能AI的崛起。綠能已是世界能源發展的主要方向，但是，要讓綠電在狂風、暴雨的天氣下維持穩定發電，而且要即時因應故障狀況，仍是一大挑戰。達摩院指出，在監控綠電運作的過程中，參數檢驗和故障檢測仍需要大量人力，而且，故障參數和特徵識別特別難找。但這也是AI能優化的地方，能建立各個電網和IT系統的數位分身，以每個電網的數位分身來解決不同場景難題，全數集結起來就能成為電網智慧控制系統。

另一方面，達摩院也預測，明年超大模型的競賽將進入冷靜期，而且，大小型模型將互相搭配來解決問題，比如，大模型將沈澱的知識和認知能力輸入小模型，小模型再將學習結果回饋給大模型，讓大模型可持續進化。他們也認為，2022年，AI將成為科學家的新生產工具，發展出新的科學研究典範。（詳全文）

Deep01 腦出血偵測AI 日本

臺醫療AI新創Deep01腦出血偵測AI獲日本上市許可

臺灣AI新創Deep01自行研發的腦出血AI偵測軟體DeepCT獲日本PMDA上市許可，進軍日本醫療AI市場。Deep01指出，日本是高度高齡化國家，老年人口眾多，但醫療儀器密度居全球之冠，平均每百萬人的電腦斷層掃描（CT）高於111臺。但日本缺乏放射科醫師，這時，AI輔助判讀軟體就能加速診斷流程。DeepCT可在30秒內偵測患者CT，來判斷是否顱內出血，協助放射科及急診醫師在深夜或人力不足時快速判斷，作為醫療決策參考。

這套DeepCT除了拿到日本上市許可證，也獲得美國、歐盟、泰國、香港、馬來西亞等多國認證，也通過ISO13485醫療器材品質管理認證。DeepCT在臺灣已偵測6萬多個病例，2021年也簽下20多國獨家代理，積極進軍全球醫療AI市場。（詳全文）

微軟 對話理解 函式庫

微軟釋出新一代對話理解服務

微軟釋出新一代對話語言理解（Conversational Language Understanding，簡稱CLU）服務預覽版，供開發者用來訓練對話語言理解模型，並用於應用程式中，來提供相關語言服務。不只是開發，這套CLU服務還能支援調度專案（Orchestration Project），微軟指出，這些調度專案由多語言雙Transformer編譯器（DTE）驅動，能讓開發者配置專案，能導至多個可自定義的語言服務，這些服務包括問答知識庫、其他對話語言理解專案，以及微軟自家的語言理解服務（LUIS）。

與此同時，微軟也釋出預覽版的CLU客戶端函式庫，開發者可用來建立各種對話應用，像是分析聊天機器人場景的對話，藉由將終端用戶提供的文字對話作為輸入，呼叫客戶端來執行同步操作，指定模型和部署槽以進行分析。開發者也可以對同一模型提供不同語言的話語，來使用嵌入式多語言功能。（詳全文）

Google 聯合學習 行動鍵盤

Google用更安全的聯合學習方法，成功優化行動鍵盤Gboard推薦品質

Google最近利用新聯合學習（Federated Learning）技術，來優化自家行動裝置鍵盤Gboard。Google稱這項新技術為聯合重建（Federated Reconstruction），可大規模進行部分本地聯合學習，訓練模型時，部分模型參數永遠不會在伺服器聚合，更進一步保護資料隱私。

聯合學習技術讓使用者在不將原始資料發送到中央伺服器的情況下訓練模型，避免隱私敏感資料被收集。在傳統聯合學習技術中，所有用戶通常會擁有單一的全域模型，像是行動鍵盤App用戶，會共同訓練建議模型，全域模型會根據每位用戶的習慣參數，訓練出個人化的建議。

但，有別於傳統聯合學習，聯合重建技術有幾項優點，一是用戶裝置不必儲存本地端參數，二是聯合重建方法不假設用戶具有前幾輪的訓練狀態，因此能實現大規模訓練，三是聯合重建會不斷重建本地端參數，避免參數過時。後來，為驗證可行性，Google將這套演算法部署到Gboard中，來優化表情符號的輸入建議。他們發現，聯合重建方法大幅增加推薦表情的點閱率達29.3%。（詳全文）

MLCommons 語音辨識 口語資料集

MLCommons釋出多語言口語大型語音辨識資料集

全球開放非營利組織MLCommons發布了多語言口語語料庫（Multilingual Spoken Words Corpus，MSWC），這個大型資料集包含50種不同語言的口語音訊資料，資料集容量還不斷增加中。MSWC資料集涵蓋的50種語言，等於涵蓋全球50億人口，對於不少語言來說，MSWC是第一個可用來訓練語音介面的公開免費資料集，官方在MSWC使用CC-BY 4.0授權對外釋出，來促進全球關鍵字探索、口語搜尋和各種學術與商業應用，他們的最終目標是要讓基於語音的關鍵字辨識介面，能夠支援更多語言的關鍵字。MSWC的貢獻者來自Coqui、Factored、Google、哈佛大學、英特爾、Landing AI、Nvidia和密西根大學等地的研究者。（詳全文）

圖片來源／DeepMind、微軟、Google

AI趨勢近期新聞

1. Meta開源Bean Machine函式庫可量測AI模型不確定性

2. 長春石化聯手清大，用AI打造自動控制技術降低不良率至0.0000002%

資料來源：iThome整理，2021年12月

重點新聞(1224～1230)

熱門新聞