AI趨勢周報第121期：通吃自然語言和程式語言！微軟發表CodeBERT模型讓程式碼搜尋更便利

CodeBERT為雙模態預訓練模型，以BERT和RoBERTa的架構為基礎，利用自然語言和6種程式語言來訓練，可進行自然語言搜尋程式碼的任務，也可進行程式碼文黨建立的任務。

重點新聞(0221～0228)

GitHub 程式撰寫 CodeBERT

通吃自然語言和程式語言！微軟發表CodeBERT模型讓程式碼搜尋更便利

微軟亞洲研究院日前發表一套雙模態預訓練模型CodeBERT，可處理自然語言和6種程式語言，像是Python、Go、PHP等，目的是要讓程式語言的搜尋更便利。自Google前年發表超大型自然語言預訓練模型BERT以來，改寫了AI在自然語言的表現，許多團隊也以它為基礎，發表青出於藍勝於藍的變形模型。

這次，微軟團隊以BERT和自家去年發表的RoBERTa架構為基礎，用兩種資料來訓練CodeBERT，首先是自然語言文本，再來是不同語言的程式碼，包括Go、Ruby、Python、Java、JavaScript、PHP等。訓練資料來自GitHub上的公開數據庫，包含210萬個雙模態資料點（Data points），以及來自6種程式語言的640萬個單模態程式碼。接著，團隊先微調CodeBERT，再讓它從GitHub的開源資料集CodeSearchNet中，尋找程式碼，並針對預訓練階段沒遇過的程式碼，來建立文檔（Documentation）。

後來，團隊也測試CodeBERT表現，發現CodeBERT在自然語言搜尋程式碼任務，以及產生程式碼文檔任務中，皆達到SOTA等級。（詳全文）

DeepMind 強化學習 JAX

瞄準強化學習，DeepMind釋出兩款JAX函式庫

DeepMind日前釋出兩款JAX函式庫Haiku和RLax，分別要簡化模型參數管理，以及提高強化學習模型表現。JAX是Google兩年前發布的數值運算函式庫，結合了NumPy函式庫、自動差分、GPU和TPU支援等，可加速機器學習作業。

其中，Haiku能簡化參數和模型狀態的管理，也可與JAX函式庫中其他函式共用。Haiku以TensorFlow函式庫Sonnet為基礎，保留了Sonnet中管理模型狀態的模組，同時也具JAX函數轉換的使用權限；此外，Haiku的API和抽象（Abstraction）也與Sonnet相似，讓使用者更容易從TensorFlow和Sonnet過渡到JAX和Haiku。團隊指出，Haiku在大規模的影像和語言處理、生成式模型和強化學習等任務，表現特別好。至於RLax，則建於JAX之上，可助於強化學習代理的執行。（詳全文）

艾倫AI研究院 電腦視覺 模型評估

AI2發表電腦視覺模型評比工具，網羅多種SOTA模型供評估

由微軟共同創辦人成立的艾倫人工智慧研究院AI2，日前發表了電腦視覺模型資源工具AI2 Computer Vision Explorer，網羅多種熱門、SOTA等級的影像辨識模型，供使用者來嘗試、比較和評估，找出最適合自己資料集或研究用的模型。

雖然電腦視覺在近年已有長足進步，但就算是有經驗的研究員，仍難以評估熱門的模型是否適合自己的資料，因此，AI2的感知推理與互動研究團隊（PRIOR）決定展開這項專案，蒐集多種模型，特別是在熱門電腦視覺任務中達SOTA或近乎SOTA的模型，比如影像分類、物件偵測、影像問答、人體姿勢預測等。

以影像問答（VQA）來說，使用者可選擇4種現有場景的照片，或是上傳自己的照片並輸入問題。接著，使用者可用2018年VQA挑戰賽的冠軍模型Pythia來執行任務。目前，PRIOT團隊也陸續新增其他模型，至AI2 Computer Vision Explorer中。（詳全文）

eBay 影像辨識 商品去背

eBay推出新AI照片編輯工具，可自動幫商品照片去背

eBay近日釋出新工具Image Clean-up，可透過AI自動幫賣家的商品照片去背。團隊指出，這項功能利用電腦視覺演算法，直接透過賣家手機的處理器來執行，讓商品背景呈白底，但有兩個先決條件，首先是影像的邊框像素需為背景，再來，前景和後景要有足夠的對比，以不同顏色凸顯兩者差異。

在技術上，團隊也建立了色彩模型，利用鑑別式機率模型中的CRF，來解決遮罩中無法理解的像素。此外，團隊也採分離性（Separability），來衡量將前後背景移除的難度，也就是說，當分離性接近最大值100％時，演算法就越容易將離。團隊利用這個方法，來決定是否要自動移除背景，或是通知使用者以手動方式，來自行移除背景。（詳全文）

Google 虛擬客服 Dialogflow

Google虛擬客服AI引擎Dialogflow再升級，可更聰明回答問題

Google發布自然語言理解平臺Dialogflow更新，要來改善客服中心AI（Contact Center AI）服務，提供了10倍意圖數量的Mega Agent，並新增代理驗證功能，可自動檢查代理設計錯誤，讓使用者能簡單建立多版本的代理、部署到不同環境。

其中，Mega Agent可回答的問題數量，是一般Dialogflow代理人的10倍。目前測試版的Dialogflow Mega Agent，可將多個代理人整合為一，將意圖數量擴充為2萬，可更準確回答客戶問題。此外，Dialogflow也可驗證代理設計，替使用者辨識錯誤，提高互動品質。最後，Dialogflow也新增一站式功能，涵蓋建立、測試與代理部署，也可助使用者管理版本。（詳全文）

萊斯大學 CapsNet 極端天氣預測

萊斯大學採CapsNet，預測寒流熱浪8成精準

萊斯大學研究團隊開發一套深度學習天氣預測系統，可預測5天後的極端天氣事件，精準度達8成。傳統預測天氣方法，仰賴數值天氣預測（NWP）模型，若要預測極端天氣，更耗費大量運算資源與時間。

而研究團隊發現，影像辨識可以派上用場。當極端天氣如熱浪或寒流出現時，天氣圖通常會出現不尋常的噴射氣流，像是大量或不移動的高壓系統等。因此，團隊採用CNN和膠囊神經網路（CapsNet），以1920年至2005年的歷史天氣資料，如地表溫度、環流模式Z500等來訓練模型。結果顯示，模型能夠預測寒流或熱浪的發生和出現區域，準確率達88％。（詳全文）

甲骨文 機器學習開發自動化 資料科學平臺

甲骨文跟進AutoML風，推出雲端資料科學平臺

甲骨文日前推出可讓企業快速建立、訓練、管理和部署機器學習模型的雲端資料科學平臺，以自家雲端基礎設施資料科學服務為核心，自動化部分的模型開發流程，要加速機器學習模型開發和應用。

首先，該平臺可自動選擇合適的機器學習模型，透過多種演算法和配置來測試、挑選。此外，平臺還有特徵工程自動化與模型評估工具，會產生一套評估指標與視覺化圖表，讓資料科學家能夠評估模型效能與調校。另一方面，平臺也提供模型解釋工功能，可自動產生對應權重和預測因素的重要性說明。此外，甲骨文也提供團隊協作功能，讓組織可以共享專案，並進行版本控制，還能共享資料與筆記本連線對話（Session）。（詳全文）

Google地圖 機器學習 文字偵測

Google地圖靠ML自動清除千萬筆不良評論

Google地圖上約有2億個興趣點，每日會新增2千多萬條評論、評分或其他內容，為確保內容正當，Google要在不當內容上傳後，被其他用戶看到之前就先刪掉。為此，Google利用機器學習自動偵測系統，每天掃描數百萬筆的貢獻，來維護平臺內容的品質，甚至還能在評論發布到Google地圖之前，先逐一檢查，找出虛假訊息特徵，比如特定的單字和短語、比對使用者帳戶過去貢獻內容的類型，並偵測可疑的評論模式。

此外，Google也聘請操作員和分析師團隊，來審核Google地圖上的評論、照片、商業檔案和其他類型內容，同時Google也讓所有使用者標記評論，作為刪除不當內容和誤導性地點的依據。光是去年，該系統就自動刪除了7,500萬筆違反規定的評論。（詳全文）

圖片來源／艾倫AI研究院、eBay、萊斯大學、微軟亞洲研究院

AI趨勢近期新聞

1. Google Cloud AI自動移除性別標籤，來降低偏見

2. MIT用深度學習找出強效抗生素，成果收錄權威期刊《Cell》

3. MIT開發能修改維基百科文章錯誤的自動系統

4. 麗臺整合Nvidia GPU與深度學習軟體套件，推出新款AI工作站

資料來源：iThome整理，2020年2月

重點新聞(0221～0228)

熱門新聞