Meta旗下臉書AI研究院日前開源年度機器翻譯大賽冠軍模型,靠單一模型就能執行多語言翻譯任務,比傳統雙語模型還優秀。

圖片來源: 

臉書AI研究院

重點新聞(1119~1125)

  Meta      機器翻譯    WMT 2021  

Meta開源機器翻譯大賽冠軍模型,瞄準通用翻譯

Meta旗下臉書AI研究院開源多語言模型WMT 2021,是一款拿下今年度機器翻譯大賽的冠軍模型。臉書AI研究院指出,機器翻譯(MT)是指用AI將源語翻譯為目標語的方法,目前常見的MT系統多為雙語模型,需要兩種語言語料的標籤和配對,但對缺乏語料的語言來說,翻譯成效就會不彰。而且,對臉書來說,一天要處理數百種語言寫成的數10億貼文,傳統雙語言MT作法太複雜,不切實際。

因此,臉書鎖定通用機器翻譯,要用單一模型,就能解決多語言翻譯問題。他們的模型開發策略分為三部分:大規模資料探勘、模型擴展、有效運用運算資源。在第一部分,為訓練多語言模型,團隊採兩種方式:英語到任何語言,以及任何語言到英語,並以平行資料探勘技術,來收集爬蟲取得的網站翻譯資料,降低手工翻譯成本。再來,團隊將原本150億參數的模型,擴展到520億參數,並用自家獨有的平行資料運算技術(FSDP),來加速模型訓練,比傳統方法快5倍。

最後,團隊採用一套新運算方法,讓模型在不同訓練場景中,只使用模型的一部分,而非整體,以更有效率運用硬體資源的方式來執行運算。後來,這款模型參加頗負盛名的機器翻譯大賽WMT,拿下年度冠軍,證明比傳統雙語模型還要會處理資源少的語言翻譯。團隊認為,這套模型為未來通用機器翻譯打下了基礎。(詳全文)

Line     Clova     人臉辨識  

Line Clova三大AI服務落地臺灣

Line臺灣終於發布AI解決方案Line Clova了!Line臺灣去年底就預告要在今年推出商用的AI系列產品,包括Chatbot、OCR與人臉辨識等三項服務,今年特別聚焦這三項服務與官方帳號的整合應用情境,瞄準超過200萬個官方帳號持有者來推動服務,比如美妝品牌集團資生堂就宣布,將於明年導入Line Clova的AI應用。

Line臺灣去年就宣布Clova三大AI服務完成中文化。這次,Line臺灣企業解決方案事業部策略企劃資深總監許嘉真指出,落地臺灣的Chatbot能結合官方帳號功能,比如以貼圖或多元訊息形式來回覆訊息,而且還能與官方帳號API整合,從文字機器人切換為真人客服,甚至能擴展到品牌的自有媒體上。在OCR部分,Line臺灣也建立多種常見的證件和文件辨識模型,像是身分證、駕照、健保卡、發票、車票、罰單、提款卡等,OCR可自動辨識照片中的特定區域,再將該區域圖像轉化為文字。這個技術可應用於報帳,比如先透過Chatbot引導使用者,來輸入出差的文字或上傳圖片,再以OCR圖像辨識,自動將相關訊息填入系統表單。

最後,人臉辨識功能部分,Line臺灣去年就已將這項技術用於活動報到上。許嘉真指出,品牌未來若舉辦實體活動,能讓報名者透過官方帳號,填入基本資料並上傳自己的照片,後續實體活動報到時,即可透過人臉辨識服務,來比對報名照片與實際參與者是否為同一人。這項技術在去年活動上實測後,已可達到每人辨識時間小於1秒,400人活動報到零出錯的成效。(詳全文)

  OpenAI     GPT-3     語言生成  

OpenAI擴大開放,申請GPT-3語言生成API不用等漫長審查了!

OpenAI宣布要擴大開放GPT-3語言生成API,用戶申請後,不必漫長等待即可使用。GPT-3由OpenAI開發,2020年時,OpenAI就以GPT-3為基礎推出語言生成付費服務,以API形式對外釋出。

但因GPT-3模型太過強大,外界一直懷疑GPT-3可能遭到濫用,像是垃圾郵件、造假甚至用於操控輿論等目的,因此OpenAI在API推出的初期,僅供有限的用戶申請使用。現在,OpenAI更新了GPT-3的API,包括Instruct Series的GPT-3模型,能更好地遵循用戶指令,同時還提供開發人員免費的內容過濾器,來降低服務遭到濫用的可能性,同時OpenAI現在也能在用戶應用程式上線前,對其進行審查,以監控濫用的情況,並且支援開發者了解該技術帶來的影響。(詳全文)

  醫療AI    智慧醫材專案辦公室       食藥署  

推動醫療AI產業化!食藥署智慧醫材辦公室主動輔導10家機構拚明年初取證

衛福部食藥署在今年5月成立智慧醫材專案辦公室,要輔導國內廠商、醫院和學研單位,將自行研發的醫療AI商品化,來協助申請TFDA查驗登記、取證。食藥署11月23日表示,專案辦公室採取3種輔導策略,一是主動徵求專案,二是專案諮詢,再來是電話輔導。

據統計,專案辦公室在專案諮詢部分,至今收件18件,其中17件已完成,而主動輔導則有10件,包括AI Labs旗下臺灣醫學影像公司、廣達、華碩、宏碁智醫、長佳智能,醫院部分則有臺大醫院、童綜合醫院,學研部分則有成大數位生技醫療創新研究中心,輔導內容涵蓋產品上市規畫、品質管理、產品說明書撰寫、臨床驗證設計等等,預計在今年底讓申請機構申請取證。食藥署也預告,近期將開始徵集明年度輔導專案,預計明年1月完成,並展開為期10個月的輔導。(詳全文)

  微軟     多語言     函式庫  

微軟開源多語言分散式ML函式庫,可整合45種ML服務

微軟發布分散式機器學習開源函式庫SynapseML,可大規模建立機器學習工作流程,還可將45種ML服務整合到資料庫與系統中。SynapseML將各種機器學習框架標準化,支援不同的機器學習生態系元件,組成全新類別的機器學習系統。使用SynapseML,開發者不必擔心分散式機器學習工作流程的實作細節,在不需要更改程式碼的情況,就能簡單部署至各種資料庫、叢集和程式語言中。

進一步來說,SynapseML可將現有的機器學習框架,和新的演算法統一到一個可以跨Python、R、Scala和Java的可擴展API中,該API具有可擴展性,且獨立於資料和各種語言,也能以批次、串流和提供應用程式等方式來運作,開發人員可以專注在資料和任務上。SynapseML可用來建構各種可擴展的智慧系統中,包括異常檢測、微服務調度或模型可解釋性等。(詳全文)

  Tableau     資料素養     Salesforce  

Tableau:未來5年要培養千萬人資料處理技能!

「我們處於資料分析的黃金時代!」Tableau CEO Nelson指出,資料分析已是現代企業標配,以便在瞬息萬變的市場中快速決策。Tableau近日與研究單位進行的調查也發現,企業招募新人時,更將資料素養列為首要考慮條件。

進一步來說,Tableau原本就有一套提高資料素養的學術計畫,提供學校師生免費軟體和課綱來教學。現在,Tableau基金會要再加碼500萬美元,來擴大這個計畫,比如提供免費的線上學習內容,讓世界各地師生都可使用。此外,Tableau也將聯手Salesforce開設免費的資料素養課程,也要與數位轉型培訓組織合作,將資料教育納入實習計畫。Tableau預計這項計畫將培訓千萬人規模。(詳全文)

  Nvidia     物理模擬框架     Modulus  

Nvidia推出AI物理模擬框架Modulus

Nvidia推出一款用於控制物理方程式和模擬的神經網路訓練平臺Modulus,可生成強大且高度逼真的模型,加速多物理系統的設計探索,適合數位雙身的開發。

Nvidia指出,Modulus是一種神經網路框架,可將物理學和偏微分等強大功能和AI相結合,以建構出更加強大的模型。Modulus是為工程師、科學家、研究員和學生所設計,使用方法簡單,且容易擴展。Modulus可同時解決多個假設情境的參數化系統,用戶僅需要訓練模型一次,即可解決多個問題。有別於傳統的數值求解器,Modulus能一次處理多個單一幾何或參數幾何,神經網路可同時在多個情境間進行訓練,並在推理過程,即時評估每個配置,讓用戶更有效率探索設計空間。(詳全文)

圖片來源/臉書AI研究院、Line臺灣、微軟、Nvidia

攝影 / 王若樸

 AI趨勢近期新聞 

1. 臺南市與華碩雲端打造動態影像AI感知平臺,自動偵測車流、人流

2. Google釋出TF-GNN,使用者可在TensorFlow打造圖學模型了

資料來源:iThome整理,2021年11月


熱門新聞

Advertisement