AI趨勢周報第70期：韓研究員開發圖像轉換系統InstaGAN，讓照片人物長褲換短裙

圖片來源:

Sangwoo Mo et al

重點新聞(1228～0103)

GAN InstaGAN 圖像轉換

韓研究員用生成對抗網路，讓照片人物的長褲變短裙

韓國科學技術研究院（KAIST）和浦項工科大學的研究員，利用生成對抗網路（GAN）打造一套圖像轉換系統InstaGAN，能將原本照片人物的褲裝，轉換為真實度高的裙裝，或是將風景圖中的羊群，變成一群長頸鹿。一般運用於圖像的GAN，由2套互相競爭的神經網路組成，包括生成樣本的生成器，以及評鑑生成樣本和真實樣本的鑑別器，但若要生成變化大的圖像，則不易成功。而InstaGAN整合了多種目標物件的實例訊息，也就是物件分割掩碼（Object segmentation masks，即同個物件的畫素組），完好地結合目標物件的邊界，忽略顏色等細節，同時轉換圖像及相對應的實例屬性集，並保留背景。

為測試InstaGAN，研究員採用了多種數據集（包括微軟圖像數據集COCO、Multi-Human Parsing和）的兩類圖像，與公認的圖像轉換系統CycleGAN比較。結果顯示，InstaGAN較能保留背景，並生成合理的圖像。（詳全文）

微軟 AI Labs AI基因分析

邁向精準醫療！臺灣微軟與臺灣人工智慧實驗室發表AI基因分析平臺

臺灣微軟和臺灣人工智慧實驗室（AI Labs）近日發表AI基因分析平臺TaiGenomics，來進一步發展精準醫療。精準醫療有別於傳統醫療，除了一般性檢測，還需透過基因檢測和生物檢測，來達到個人化的治療。而AI Labs研究全基因定序和變異分析已有6個多月，採用微軟Azure服務，開發出TaiGenomics，藉助AI來進行全基因體定序、序列分析、基因變異分析、文獻比對，建立出模組化分析流程，而基因分析的變異資料，能協助醫生判斷和預測患病機率。這一做法，也預計將大幅減少人工比對資料的時間，以及降低基因檢測成本。（詳全文）

AI Maximum Entropy RL 機器人運動

Google Brain科學家聯合加州柏克萊大學，設計一套能教機器人走路的演算法

Google Brain科學家與加州柏克萊大學研究員，開發一套演算法，能教四隻腳的機器人，來爬行已知與未知的陸面。研究員首先表示，近來深度增強式學習廣泛用於模擬世界中的運動策略，再轉移到真實世界的機器人上，但由於模擬落差，導致表現不佳。研究員因而採用最大熵法則的增強式學習（Maximum Entropy RL），不需模擬訓練，就能學習運動技能。

在真實世界測試時，研究員將AI模型套用到4隻腳的機器人Minitaur上，利用工作站(Workstation)更新神經網路、下載Minitaur資料和上傳policy，並放置一臺Nvidia Jetson TX2於機器人上，來執行policy、蒐集和上傳資料。經過2小時16萬步的訓練，Minitaur能在平面地形行走，也能上坡、上階梯，以及經過有木頭路障的平面，這些場景在訓練時並未出現。（詳全文）

滴滴 增強式學習 派車

滴滴設計新RL演算法，來提高派車效率

中國叫車龍頭滴滴日前設計一套新演算法，能加強分派司機的效率。這個演算法以增強式學習（RL）為基礎，RL透過獎懲讓AI代理人來完成目標，而在滴滴的例子中，AI代理人就是司機，獎勵則是載客後得到的車費。滴滴原本的派車演算法有2個部分，分別是預測乘車人需求變化的系統，以及依照這些預測來派車的系統。但這個方式無法因應供需變化，還需重新訓練預測系統，以達到更精準的預測。而新方法則是將2個部分合而為一，演算法能根據每項後續資料，來學習更有效率地派車，能根據供需變化自動調整，不需要重新訓練。滴滴計畫採用該演算法，但尚未公布確切時間。（詳全文）

科技部 AI 醫療影像資料庫

國內首個跨院所醫療影像標註資料庫上線，加速醫療影像的AI應用

科技部日前與臺灣大學、臺北榮總和臺北醫學大學三大醫療團隊，共同宣布國內第一個跨院所的醫療影像資料庫正式啟動。這個資料庫的誕生，來自2017年科技部啟動的「醫療影像專案計畫」，當時醫界與學界AI團隊合作，結合醫療人員標註影像資料，要開發能自動分析醫療影像的演算法。經過一年，這個醫療影像標註資料庫集結了46540個病例的醫療影像，超過500萬張的醫療影像，涵蓋腦轉移瘤、肺癌、心臟冠狀動態脈等重大疾病。科技部表示，未來藉醫療影像標註資料開發出AI分析工具，能快速協助醫生判讀醫學影像，也能幫助人力不足的偏鄉醫療。（詳全文）

AI 指甲感應器 疾病追蹤

IBM科學家以指甲感應器及AI來追蹤疾病

IBM科學家日前展示了一指甲感應器原型，能偵測指甲的彎曲與移動，並傳送到執行機器學習模型的智慧手錶上，以用來偵測人體的健康狀態與疾病的進展。該指甲感應器包括一個應變計（Strain Gauges）與一個小型運算器，能夠持續測量手指的彎曲與移動，並將所蒐集的數據傳送到智慧手錶上，讓這個能執行多種機器學習模型的智慧手錶，來評估這些數據，以判斷是否有運動遲緩、顫抖及運動障礙等帕金森氏症症狀。該研究已刊登在《科學報告》（Scientific Reports）期刊上。（詳全文）

臉書 語音辨識 開源

臉書開源第一個使用CNN的端到端語音辨識系統

臉書近日釋出自動語音辨識的卷積方法，也開源端到端語音辨識系統wav2letter++。這個自動語音辨識方法使用卷積神經網路（CNN）進行聲音建模和語言建模，好處是可以輕鬆擴展到其他語言，而直接從原始語音學習，也是解決音訊品質變化大的好方法。臉書釋出全新自動語音辨識的卷積方法的同時，也釋出了快速且靈活的獨立機器學習函式庫Flashlight和wav2letter++開發框架，讓其他開發者也能實作出相同的成果。（詳全文）

Twilio Autopilot Chatbot

Twilio聊天機器人平臺Autopilot開始支援臉書，加速企業打造Chatbot應用

提供雲端通訊服務的Twilio，先前釋出AI平臺Autopilot，加速企業用戶開發客製化的Chatbot服務。近日，該公司進一步擴大Autopilot的產品布局，開始支援臉書Messenger，方便使用者打造Chatbot應用。Twilio Autopilot透過單一API，存取多個通訊管道，能將Chatbot應用部署至多平臺，包括簡訊、語音，或是智慧助理如Alexa、Google Assistant。該公司認為，藉此能提高終端用戶的一致性體驗。不過，支援臉書Messenger的Autopilot，還只在Beta階段。（詳全文）

Google Google Lens 影像辨識

10億種產品都認得！Google Lens影像辨識力超強

Google日前宣布其AI影像辨識技術Google Lens已能辨識10億多個物件。Google Lens於前年5月首次亮相，是以AI和電腦視覺為基礎的影像文字辨識技術，讓用戶可以手機拍攝食譜後，將其食材加入購物清單，或拍攝名片後加入聯絡人名單。為訓練Google Lens，開發小組打造了光學字元辨識（OCR）引擎，再結合由Google 搜尋和知識圖譜（Knowledge Graph）累積的語言知識，再以Google Books掃瞄而來的不同字元、語言、字體、及圖畫來訓練機器學習演算法。 Google表示，Google Lens現在的表現是首次推出時的4倍。現在，Google利用自家OCR引擎做其他用途，像是讀取產品標籤。（詳全文）

圖片來源／Sangwoo Mo et al.、臺灣微軟、Tuomas Haarnoja、IBM、Google

AI趨勢近期新聞

1. 臉書開源可即時模糊VR背景的AI系統DeepFocus

2. 臺灣人工智慧學校1歲了！學員大秀年度成果，甚至有能及時預警病情惡化的系統

3. 美高中生靠機器學習辨識地面易燃物，助加州政府防範森林野火

資料來源：iThome整理，2019年1月

重點新聞(1228～0103)

熱門新聞