CodeBERT為雙模態預訓練模型,以BERT和RoBERTa的架構為基礎,利用自然語言和6種程式語言來訓練,可進行自然語言搜尋程式碼的任務,也可進行程式碼文黨建立的任務。

重點新聞(0221~0228)

GitHub     程式撰寫     CodeBERT  

通吃自然語言和程式語言!微軟發表CodeBERT模型讓程式碼搜尋更便利

微軟亞洲研究院日前發表一套雙模態預訓練模型CodeBERT,可處理自然語言和6種程式語言,像是Python、Go、PHP等,目的是要讓程式語言的搜尋更便利。自Google前年發表超大型自然語言預訓練模型BERT以來,改寫了AI在自然語言的表現,許多團隊也以它為基礎,發表青出於藍勝於藍的變形模型。

這次,微軟團隊以BERT和自家去年發表的RoBERTa架構為基礎,用兩種資料來訓練CodeBERT,首先是自然語言文本,再來是不同語言的程式碼,包括Go、Ruby、Python、Java、JavaScript、PHP等。訓練資料來自GitHub上的公開數據庫,包含210萬個雙模態資料點(Data points),以及來自6種程式語言的640萬個單模態程式碼。接著,團隊先微調CodeBERT,再讓它從GitHub的開源資料集CodeSearchNet中,尋找程式碼,並針對預訓練階段沒遇過的程式碼,來建立文檔(Documentation)。

後來,團隊也測試CodeBERT表現,發現CodeBERT在自然語言搜尋程式碼任務,以及產生程式碼文檔任務中,皆達到SOTA等級。(詳全文)

  DeepMind     強化學習    JAX  

瞄準強化學習,DeepMind釋出兩款JAX函式庫

DeepMind日前釋出兩款JAX函式庫Haiku和RLax,分別要簡化模型參數管理,以及提高強化學習模型表現。JAX是Google兩年前發布的數值運算函式庫,結合了NumPy函式庫、自動差分、GPU和TPU支援等,可加速機器學習作業。

其中,Haiku能簡化參數和模型狀態的管理,也可與JAX函式庫中其他函式共用。Haiku以TensorFlow函式庫Sonnet為基礎,保留了Sonnet中管理模型狀態的模組,同時也具JAX函數轉換的使用權限;此外,Haiku的API和抽象(Abstraction)也與Sonnet相似,讓使用者更容易從TensorFlow和Sonnet過渡到JAX和Haiku。團隊指出,Haiku在大規模的影像和語言處理、生成式模型和強化學習等任務,表現特別好。至於RLax,則建於JAX之上,可助於強化學習代理的執行。(詳全文)

  艾倫AI研究院    電腦視覺    模型評估  

AI2發表電腦視覺模型評比工具,網羅多種SOTA模型供評估

由微軟共同創辦人成立的艾倫人工智慧研究院AI2,日前發表了電腦視覺模型資源工具AI2 Computer Vision Explorer,網羅多種熱門、SOTA等級的影像辨識模型,供使用者來嘗試、比較和評估,找出最適合自己資料集或研究用的模型。

雖然電腦視覺在近年已有長足進步,但就算是有經驗的研究員,仍難以評估熱門的模型是否適合自己的資料,因此,AI2的感知推理與互動研究團隊(PRIOR)決定展開這項專案,蒐集多種模型,特別是在熱門電腦視覺任務中達SOTA或近乎SOTA的模型,比如影像分類、物件偵測、影像問答、人體姿勢預測等。

以影像問答(VQA)來說,使用者可選擇4種現有場景的照片,或是上傳自己的照片並輸入問題。接著,使用者可用2018年VQA挑戰賽的冠軍模型Pythia來執行任務。目前,PRIOT團隊也陸續新增其他模型,至AI2 Computer Vision Explorer中。(詳全文)

  eBay    影像辨識     商品去背 

eBay推出新AI照片編輯工具,可自動幫商品照片去背

eBay近日釋出新工具Image Clean-up,可透過AI自動幫賣家的商品照片去背。團隊指出,這項功能利用電腦視覺演算法,直接透過賣家手機的處理器來執行,讓商品背景呈白底,但有兩個先決條件,首先是影像的邊框像素需為背景,再來,前景和後景要有足夠的對比,以不同顏色凸顯兩者差異。

在技術上,團隊也建立了色彩模型,利用鑑別式機率模型中的CRF,來解決遮罩中無法理解的像素。此外,團隊也採分離性(Separability),來衡量將前後背景移除的難度,也就是說,當分離性接近最大值100%時,演算法就越容易將離。團隊利用這個方法,來決定是否要自動移除背景,或是通知使用者以手動方式,來自行移除背景。(詳全文)

  Google    虛擬客服    Dialogflow  

Google虛擬客服AI引擎Dialogflow再升級,可更聰明回答問題

Google發布自然語言理解平臺Dialogflow更新,要來改善客服中心AI(Contact Center AI)服務,提供了10倍意圖數量的Mega Agent,並新增代理驗證功能,可自動檢查代理設計錯誤,讓使用者能簡單建立多版本的代理、部署到不同環境。

其中,Mega Agent可回答的問題數量,是一般Dialogflow代理人的10倍。目前測試版的Dialogflow Mega Agent,可將多個代理人整合為一,將意圖數量擴充為2萬,可更準確回答客戶問題。此外,Dialogflow也可驗證代理設計,替使用者辨識錯誤,提高互動品質。最後,Dialogflow也新增一站式功能,涵蓋建立、測試與代理部署,也可助使用者管理版本。(詳全文)

萊斯大學   CapsNet     極端天氣預測  

萊斯大學採CapsNet,預測寒流熱浪8成精準

萊斯大學研究團隊開發一套深度學習天氣預測系統,可預測5天後的極端天氣事件,精準度達8成。傳統預測天氣方法,仰賴數值天氣預測(NWP)模型,若要預測極端天氣,更耗費大量運算資源與時間。

而研究團隊發現,影像辨識可以派上用場。當極端天氣如熱浪或寒流出現時,天氣圖通常會出現不尋常的噴射氣流,像是大量或不移動的高壓系統等。因此,團隊採用CNN和膠囊神經網路(CapsNet),以1920年至2005年的歷史天氣資料,如地表溫度、環流模式Z500等來訓練模型。結果顯示,模型能夠預測寒流或熱浪的發生和出現區域,準確率達88%。(詳全文)

甲骨文   機器學習開發自動化     資料科學平臺  

甲骨文跟進AutoML風,推出雲端資料科學平臺

甲骨文日前推出可讓企業快速建立、訓練、管理和部署機器學習模型的雲端資料科學平臺,以自家雲端基礎設施資料科學服務為核心,自動化部分的模型開發流程,要加速機器學習模型開發和應用。

首先,該平臺可自動選擇合適的機器學習模型,透過多種演算法和配置來測試、挑選。此外,平臺還有特徵工程自動化與模型評估工具,會產生一套評估指標與視覺化圖表,讓資料科學家能夠評估模型效能與調校。另一方面,平臺也提供模型解釋工功能,可自動產生對應權重和預測因素的重要性說明。此外,甲骨文也提供團隊協作功能,讓組織可以共享專案,並進行版本控制,還能共享資料與筆記本連線對話(Session)。(詳全文)

Google地圖     機器學習      文字偵測  

Google地圖靠ML自動清除千萬筆不良評論

Google地圖上約有2億個興趣點,每日會新增2千多萬條評論、評分或其他內容,為確保內容正當,Google要在不當內容上傳後,被其他用戶看到之前就先刪掉。為此,Google利用機器學習自動偵測系統,每天掃描數百萬筆的貢獻,來維護平臺內容的品質,甚至還能在評論發布到Google地圖之前,先逐一檢查,找出虛假訊息特徵,比如特定的單字和短語、比對使用者帳戶過去貢獻內容的類型,並偵測可疑的評論模式。

此外,Google也聘請操作員和分析師團隊,來審核Google地圖上的評論、照片、商業檔案和其他類型內容,同時Google也讓所有使用者標記評論,作為刪除不當內容和誤導性地點的依據。光是去年,該系統就自動刪除了7,500萬筆違反規定的評論。(詳全文)

圖片來源/艾倫AI研究院、eBay、萊斯大學、微軟亞洲研究院

 AI趨勢近期新聞 

1. Google Cloud AI自動移除性別標籤,來降低偏見

2. MIT用深度學習找出強效抗生素,成果收錄權威期刊《Cell》

3. MIT開發能修改維基百科文章錯誤的自動系統

4. 麗臺整合Nvidia GPU與深度學習軟體套件,推出新款AI工作站

資料來源:iThome整理,2020年2月


Advertisement

更多 iThome相關內容