臺灣微軟人工智慧研發中心首席研究總監賴尚宏 (攝影/洪政偉)

「深度學習的出現,讓電腦視覺蓬勃了起來。」臺灣微軟人工智慧研究中心首席研究總監賴尚宏指出,電腦視覺起飛的關鍵有兩個,一個是深度學習,另一個是「大量的開放資料」,特別是2010年的一場比賽,奠下了日後電腦視覺起飛的基礎。

這場比賽就是ImageNet大規模影像辨識和分類,收集了網路上1千5百多萬張經人工標註的影像,開源為訓練資料集和測試資料集,讓參賽者驗證自家模型的辨識準確率。這場競賽連續舉辦了7年,2012年時深度學習首次運用於比賽中,當屆冠軍的辨識準確率擊敗前屆的74%,直接躍升到85%,成功引起各方對深度學習的關注。而2015年時,該屆的冠軍準確率更高達96%,比人類辨識還精準。

後來,因為機器辨識能力已超越人類水準,ImageNet競賽在2017年之後就停辦了。至今,ImageNet已成為世界最大的開源影像資料庫,擁有數千萬張人工標註的影像和2萬2千個類別,成為各家想打造影像辨識模型的取材之處。

這個結果,迎來了影像辨識應用遍地開花的時代,各種應用如人臉辨識、道路辨識、物體辨識等,如雨後春筍般不斷冒出。

大量訓練資料,是開發深度學習應用的前提

儘管深度學習能帶給電腦視覺突飛猛進的應用,卻有個讓企業頭痛的問題,也就是需要大量的訓練資料。擁有足夠的訓練資料,才能打造像樣的影像辨識應用,倘若訓練資料不足,成效就難以彰顯。賴尚宏舉例,光是用於製造業的瑕疵品檢測,每個特徵可能就需要數千或數萬張產品影像來訓練模型,但由於產品周期越來越短,企業難以累積足夠的產品影像資料,再加上產品機密性,業界也沒有公開的影像資料集可使用。這些因素,使企業難以開發好用的產品檢測模型。

除了訓練資料量要夠大,「資料還要有代表性。」賴尚宏強調,影像辨識模型要有良好成效,訓練資料就必須具代表性,涵蓋各種變化,否則會產生偏見、影響準確率。就以人臉辨識為例,去年美國麻省理工學院一份報告指出,微軟、IBM和中國曠視的臉部辨識系統,辨識淺色人種的準確率高於深色人種,而且辨識男性的準確率高於女性。研究表示,這個問題可能出在訓練人臉辨識模型的資料集,比如缺乏深色膚色人種的影像資料。後來,各方也證實這個觀點,增加了各種特徵的訓練資料量,才改善人臉辨識系統的偏見。

「這就是監督式學習的限制,」賴尚宏打比方,「就像讀書一樣,必須給電腦各式各樣的學習材料,才能擁有涵蓋性的知識。」但對特定產業來說,這種多元的學習材料可不容易取得。

面對這個情況,賴尚宏說,在某種程度上,生成對抗網路(Generative Adversarial Network,GAN)和遷移學習(Transfer Learning)可以解決資料不足的問題。

小數據救星:生成對抗網路和遷移學習

遷移學習特別適合工業檢測。現今企業採少量多樣的生產機制,產品生產周期短,要蒐集各種訓練資料,十分耗時。透過遷移學習,企業可利用原有的產品檢測模型,加上少量新產品資料,調整成合適的新產品檢測模型。───微軟人工智慧研發中心首席研究總監 (攝影/洪政偉)

GAN是5年前,由蒙特利大學教授及其學生提出的一種非監督式深度學習架構,「特點是可以生成影像。」GAN由兩套神經網路組成,包括負責生成影像的產生器(Generator),以及負責評估生成影像真偽的鑑別器(Discriminator),這兩套神經網路互相競爭,也互相學習。一段時間後,鑑別器評斷的標準越來越高,而產生器所生成的影像也就越來越逼真,兩者同時進步。

在實際應用案例中,賴尚宏舉例,有些廠商就透過GAN,根據晶圓特性和瑕疵種類,來合成晶圓瑕疵檢測模型所需的訓練資料,有些甚至是根據光碟片瑕疵資料所產生的。

而在醫療應用方面,由於醫病隱私考量,開發人員往往難以取得足夠的影像資料,來訓練醫學影像判讀模型。傳統合成影像的作法,是以人工套疊的方式進行,比如要打造辨識肝腫瘤的模型,開發人員會先收集大量資料、建立肝臟模型,同時收集腫瘤案例資料,來產生腫瘤模型,最後再將兩者套疊,產生出肝臟腫瘤的影像。

但透過GAN產生的影像資料,變化度和複雜度又比傳統方式更高。賴尚宏指出,GAN可根據設定的參數,來學習產生出具備特定特色的影像,比如有無腫瘤、腫瘤大小和腫瘤的位置等。也就是說,GAN會依據設定的參數,來模擬各種腫瘤影像。

不過,透過合成的影像資料來訓練模型,「還必須使用具有公信力的資料集,來進行測試。」賴尚宏表示,目前測試結果顯示,以少量真實資料搭配合成資料訓練出來的模型,其預測準確率比單用少量真實資料訓練出的模型,還要高。

此外,他也看好GAN的「創作」能力。賴尚宏解釋,過去業界合成影像多靠Graphics技術,只要將特定元件放進模型中,就能快速合成影像,但由於這是根據使用者定義的規則來合成,因此「缺少變化」。相較之下,GAN可產生變化更大、更真實的影像資料,也因此,GAN也廣泛運用於各種領域,比如音樂、畫作和服裝設計等,「這會是未來趨勢。」

話鋒一轉,賴尚宏指出,另一個解決訓練資料不足的方法,還有遷移學習。遷移學習是機器學習的分支,核心概念就是將通用的源領域(Source domain)知識,轉移應用到相關的目標領域(Target domain)上,比如利用能辨識所有器官腫瘤的模型,來訓練專門辨識肝臟腫瘤的模型。

關於遷移學習的好處,舉例來說,微軟去年透過遷移學習,以少量的訓練資料,打造出能翻譯方言和口語的翻譯器。一般而言,訓練一套語言翻譯模型,需要數千萬條源語和目標語相對應的語句資料,但因為方言和口語資料難以取得,微軟便透過遷移學習,將訓練資源多的語言,轉移到資源少的語言上,再搭配半監督式學習方法,最終只用了6千條對應語句,就開發出表現量眼的翻譯器。

在業界使用上,賴尚宏強調,遷移學習特別適合工業檢測。現今企業採少量多樣的生產機制,產品生產周期短,要蒐集各種訓練資料,十分耗時。透過遷移學習,企業可利用原有的產品檢測模型,加上少量新產品資料,調整成合適的新產品檢測模型。

不過,遷移學習要在業界有廣泛的應用,還有一個瓶頸。賴尚宏提到,因為業界還沒有公開的產品影像資料集,無法打造出一個通用性強的模型;也因此,目前遷移學習的通用型模型,多半還是由各公司自行打造,只適用於特定產品線。

電腦視覺新領域:串流影像辨識

目前,電腦視覺的應用多聚焦於靜態影像辨識,但賴尚宏認為,「單張影像辨識技術成熟後,就會進入串流影像,」也就是電腦視覺發展的新領域。「就好比自駕車系統,」他說,光靠靜態影像辨識來認識物件還不夠,還需要有時間維度的串流影像,來辨識道路狀況和其他駕駛行為。

而串流影像辨識的應用,包括了視訊監測。比如於智慧交通中,可透過分析串流影像來預測車流,提前疏導;在智慧零售方面,可用來分析消費者在店內的商品瀏覽行為,比對顧客性別、年齡和衣著等特徵之後,再推薦可能感興趣的商品。至於安全監測,則可用來分析預測人、車行為等。

但要訓練串流影像辨識模型,比靜態影像還複雜,原因之一就是「動作辨識的場景資料難以取得,」導致訓練資料不足。

而這時,GAN就派上用場了。GAN不只能合成靜態影像,也能合成動態影片。這幾年來,學術界也對GAN影片合成有所著墨,比如去年卡內基美隆大學研究團隊,就利用GAN開發一套影片轉換系統Recycle-GAN,來產生以假亂真的影片,不只將兩位脫口秀主持人的臉部表情互換,也將講話內容對調,更能轉換影片中綻放的花朵。

而在企業應用場景上,賴尚宏舉例,假設工廠要訓練一套用於安全監測的行為辨識模型,來偵測工人是否全程都戴安全帽、或是在某處爬梯子等動作,可先蒐集一些真實資料,再透過GAN合成出變化度高的影片資料,比如安全帽的位置、服裝材質、顏色和搭配的動作等,來訓練行為辨識模型。

不過,他也坦言,因各產業的需求複雜度不同,用GAN來訓練動態影像辨識,仍有待進一步的研究。此外,要訓練串流影像辨識模型,每一類動作的影片可能就要數千個,因此需要性能更好的硬體設備,才能處理大量的運算。這對各界來說,都是一大考驗。

串流影像辨識,也是臺灣微軟電腦視覺應用的下一步

身為臺灣微軟人工智慧研發中心的首席研究總監,賴尚宏提到,微軟將電腦視覺視為研發重心,在全球各地進行智慧城市、智慧製造和智慧醫療等電腦視覺應用。除此之外,微軟自家的產品技術,許多也與電腦視覺相關,比如微軟雲端平臺Azure上的Cognitive Services認知服務、Bing Search影像分析和搜尋、文件辨識App Office Lens,以及先前發布的Windows Hello生物特徵辨識應用,而在電腦視覺與裝置的應用上,則有混合實境裝置HoloLens和感測器裝置Kinect。

而微軟在去年,也針對電腦視覺進行組織調整,成立一個電腦視覺部門,專門研發電腦視覺相關應用。賴尚宏指出,臺灣微軟的電腦視覺方向,聚焦於Windows Hello人臉辨識的改善,以及研發發票OCR(光學文字辨識)的應用。

Windows Hello是微軟2015年推出的一項生物特徵辨識應用,能讓Windows 10的使用者,選擇以臉部辨識、指紋辨識還是虹膜辨識,來快速登入裝置。不過,這些辨識應用並非完美。在舊版系統中,就曾發生德國資安公司SYSS的研究員,用一張列印的彩色大頭照,騙過Windows Hello人臉辨識功能。

對此,微軟不斷改善Windows Hello人臉辨識,一方面收集各種破解照片,來強化系統辨識能力,另一方面也不斷優化辨識功能,希望做到連戴帽子、戴眼鏡或口罩等都能辨識。

賴尚宏也揭露,Windows Hello人臉辨識還打算朝「活體檢測」發展。他說,活體檢測會要求使用者在鏡頭前看左或看右,透過串流影像,來辨識對方是否為真人。這個方法,能對抗試圖用照片來欺騙系統的手段,但他也指出,Windows Hello的訴求在於「快」,而活體檢測可能會降低使用者體驗。也因此,微軟還在研究這塊領域。

至於OCR發票辨識應用的研發,賴尚宏指出,目前辨識語言以英文為主,透過收集各式各樣的發票,來打造一款可以辨識發票日期、消費店名、消費金額和品項的OCR應用程式,而且不只要會識字,「還要能了解情景,」比如就算發票不平整,也要能辨識。

不只如此,賴尚宏指出,OCR發票辨識很快就會支援中文,甚至未來將擴大到企業表單辨識,打造出一個自動整理企業表單的通用辨識模型。文⊙王若樸

 

 CTO小檔案 

賴尚宏

臺灣微軟人工智慧研發中心首席研究總監

學歷:美國佛羅里達大學電子電腦工程博士畢業

經歷:博士班畢業後,賴尚宏於美國普林斯頓西門子研究中心擔任研究員,主攻電腦視覺。1999年返臺後,至清華大學資工系任教至今,研究領域包括影像和視訊處理、生物特徵辨識等。2018年從清大借調至臺灣微軟人工智慧研發中心,擔任首席研究總監,研發人臉辨識及相關應用。

 

 公司檔案 

臺灣微軟

● 地址:臺北市信義區忠孝東路五段68號18樓

● 成立時間:1989年

● 主要業務:提供軟體、服務、設備和解決方案

● 總部:美國華盛頓州 Redmond

● 員工數:約400人

● 總經理:孫基康

 公司大事紀 

● 2015年:Windows Hello生物特徵辨識功能上線,同時發表混合實境裝置HoloLens

● 2016年:推出協作軟體機器人開發框架Azure Bot Services,以及語言辨識認知服務Cognitive Services

● 2017年:微軟攜手臺北醫學大學啟動AI人才培育計畫

● 2018年:微軟AI研發中心在臺成立;微軟認知服務大更新,包括Bing視覺搜尋、客製化物體偵測模型等,同時開源ML.NET機器學習框架


Advertisement

更多 iThome相關內容