Teradata技術長Stephen Brobst （圖片來源／Teradata）

「企業決策者多半浪費了90%的精力，來篩選、尋找有價值的數據」，曾被選為美國Top 4技術長的Teradata技術長Stephen Brobst如此說道。隨著AI風潮崛起，過去大力擁抱大數據分析的企業，紛紛轉向投入機器學習、深度學習技術。

但Stephen Brobst認為，企業對這些技術的運用方式，用錯地方。他認為，企業應該利用人工智慧和機器學習技術，來尋找對決策制定有影響的數據，而不是浪費大把時間來梳理數據。「這不是決策者該做的事。」

儘管調查機構Gartner預測，2020年時，超過3成CIO會將AI作為企業IT五大投資重點之一，但在Stephen Brobst看來，人工智慧只是一個市場行銷用語，他認為，許多企業CEO常把AI掛在嘴邊，認定AI能拯救公司，因此給出許多承諾，要用AI來改善各種現狀，不論目標實不實際，也要求公司CIO得實現這些承諾。「AI就像一把大傘，包羅萬象，但也可能什麼都不是。」他提醒。

就像Hadoop，也曾一度被企業視為是資料分析的銀彈，以為可以解決任何問題，後來發現也不盡然。他建議，企業得對人工智慧（AI）有正確的期待，必須先了解AI到底能做什麼、不能做什麼，而非對AI有過度期待，誤以為它就可以解決所有問題。

相較於沒有明確定義的人工智慧，機器學習是比較具體的技術。Stephen Brobst解釋，現今提到的機器學習，多半指的是線性數學，可用來歸類和預測結果，而且大多已是研究了數十年的資料探勘技術。

「人們對AI總有一種好萊塢式的想像，會問說機器能不能思考？」Stephen Brobst直接了當地回答：「不，機器不會思考。」他補充，比較適當的修正問法應該是，機器能不能仿照人思考特定問題的過程，來處理同樣的情況，「這個答案就會是可以，不過，只是有時，而非總是可以。」不過，靠機器來處理問題的好處是，可以比人更快、更便宜，甚至不用5秒就可以做出決定。

企業得先了解AI能做什麼、不能做什麼，而非過度期待，誤以為AI可解決所有問題。── Teradata技術長 Stephen Brobst　（圖片來源／ Teradata）

機器學習和深度學習的應用與工具

機器學習正是利用疊代學習技術，讓電腦可以從數據自動找出可用的趨勢和洞察，而不是靠人工定義明確的規則來尋找數據的意義。也因此，「機器學習技術的優點是快速、低成本和高準確率。」他說。

而深度學習，則是更進一步運用比機器學習更多層的神經網路，來分析數據，並從中找出模式。Stephen Brobst提到，深度學習可以容忍雜訊高的數據，也能夠整合看似不相關的數據來源，還能解釋數據中非線性的關係。甚至，他強調，深度學習有趣的地方，在於它的「自動化」。進一步說，深度學習具有自動抽取特徵（Feature Extraction）的能力，人們也稱之為特徵學習（Feature Learning）。

正因為深度學習適合用來分析複雜、高維度的數據，比如影像、音訊、影片、時間序列和文字檔等，或像是即時數據流、感測器數據等。也因此在各行業開始出現廣泛的應用，如在汽車業將深度學習技術用於自駕車的導航系統，利用深度學習圖像辨識的優勢，來識別路標、交通號誌和道路狀況等。而在高科技製造業，也能用深度學習技術辨識影像和音訊，來優化工廠營運。在醫療業也透過深度學習技術來判讀醫療影像，或是來尋找新藥組合。

不過，Stephen Brobst認為，深度學習最大的價值是這3個領域：預測配對、詐騙偵測和故障預測。第一個預測配對應用，指的是透過分析顧客過往的網路行為歷史，比如購買歷史或瀏覽歷史，進而預測、推薦顧客可能會需要的產品或服務。他舉例，不少零售業者利用深度學習技術，以數據為原料，來打造推薦引擎（Recommendation engines），成功讓特定類型產品的銷量增加了30％。

其次是詐騙偵測，Stephen Brobst解釋，由於詐騙人士常在網路活動中隱藏自己的足跡，但藉助深度學習用多層神經網路來分析複雜的數據，能夠找出這些詐騙人士的活動模式，進而有效偵測詐騙，而且「深度學習模型的預測力，比傳統線性數據分析模型要好上許多」。電信業、零售業和金融業等產業都可運用這類反詐騙偵測技術。知名第三方支付服務商PayPal，就是利用深度學習成功偵測出詐騙行為的例子。

Teradata技術長Stephen Brobst列出了一份深度學習主要開源工具，這也是他認為企業想導入深度學習時可參考採用的技術。　（攝影／王若樸）

PayPal光是2017年交易量超過77億次，出色的成績也引來不少有心人士。PayPal透過深度學習技術來偵測詐騙行為模式，以過濾可疑的使用者或遭盜用的帳號。PayPal從支付交易歷史資料中，甚至還有使用者登入裝置，或是交易時的地理位置、IP地址和使用者帳戶資料等資料點，來建立詐欺行為特徵的模型，來分析每筆交易的細節，以判斷是否有詐騙或盜用情形。過去靠線性模型只能處理20到30個變數，但PayPal改導入深度學習技術後，可以處理到數千個資料點，更容易從大量資料中找出偵測模型。

Stephen Brobst舉的另一個例子是丹麥銀行的詐騙檢測系統，過去作法是先仰賴專家人工建立的規則引擎來篩選詐騙事件，再展開進一步調查，但這樣的篩選誤報率很高，導致後續調查費時費工，也只能順利找出4成的詐騙事件。有時銀行一天就會收到1,200件誤報事件（正常交易，但被規則引擎誤判為疑似詐騙交易），導致大多數調查工作都是做白工，也讓這些應該正常完成的交易，為了調查而暫停或延後執行，進而影響了不少顧客的生意。後來，丹麥銀行導入Teradata深度學習技術，以真實發生的詐騙案例為數據來源，來訓練誤報事件的判斷模型，讓報錯率大幅減少至少6成。隨著誤報事件的減少，詐欺調查資源也可以集中，進而提高了成功找出詐騙交易的比例。

此外，丹麥銀行還採取了「冠軍／挑戰者」（Champion／Challenger）的方法，透過不斷比較模型效果，來優化最終的深度學習預測模型。每個挑戰者（也就是每個模型）的預測表現若低於門檻，系統就會匯入更多資料，比如客戶的地理位置或最近ATM交易資料，讓挑戰者重新訓練新模型，不斷比較每個挑戰者的表現，並從中選出冠軍，來找出最有效率又最能避免報錯率的模型。最後，丹麥新的檢測系統可以分析每年數百萬次的交易行為，甚至尖峰時期可以分析每分鐘數十萬次的交易行為。

儘管在金融業，運用深度學習來進行詐騙偵測頗有效果，不過，Stephen Brobst認為，深度學習運用最有成效是第三個應用領域，也就是故障預測。他解釋，透過感測器蒐集到的數據，比如IoT裝置的數據流、工廠機器感測器數據，或是自駕車和飛機引擎感測器的數據等，然後以深度學習演算法分析，可用來預測機器什麼時候會故障，並因此提早維修，避免事故發生。這些用來分析的感測器數據，不論是簡單的溫度、壓力和功耗數值，或是複雜的機器運轉聲音等非結構化資料，都可以放進深度學習模型中訓練來進行預測。

儘管深度學習在以上三方面表現突出，但卻不代表它是萬用金鑰。Stephen Brobst表示，「深度學習雖然是解決問題的好方法，卻不見得是最好的方法。」結合淺層學習和深度學習來解決問題，也未嘗不是個好辦法。他進一步解釋，淺學習與深度學習的結合，就是線性數學模型與非線性模型的結合，而線性模型可用來完成簡單任務，比如在網購上用淺層學習，就足以預測顧客挑襯衫會順便看領帶，所以，系統應推薦幾款領帶給顧客。但是，「若要進一步依據不同顧客的偏好，更精準推薦領帶的款式，實現個人化行銷，就得用到深度學習的非線性模型來分析。」他說。

在對機器學習和深度學習的能力有所了解後，才能給予合理的期待。下一步就是要知道，有哪些工具適合打造深度學習模型？Stephen Brobst表示，開源機器學習框架TensorFlow就是一個廣受歡迎的工具，因為它可適性強，可以應用在不同設備或環境上，不論是雲端、移動裝置或使用CPU和GPU都支援，也支援多種語言，如Python和C/C++。而其他開源框架，他也推薦兩個開發人員愛用的工具，適合訓練CNN的Caffe和RNN的Torch。

而以資料倉儲起家的Teradata，Stephen Brobst表示，近來在深度學習的布局也正是鎖定第三個應用領域，在自家數據分析平臺（Teradata Analytics Platform）上，最近推出了4D Analytics功能，主打IoT邊緣裝置的數據分析。

這套分析平臺的4D Analytics，是指在原本的3D空間位置數據外，還加上了第四維度的時間，讓使用者可以在Teradata分析平臺上處理地理空間、時態和時序數據。由於許多感測器的數據會隨著時間不斷有微妙變化，比如飛機每次起飛的高度，但人們常忽略這些變化，而4D Analytics就像一連串的截圖分析一樣，來呈現不同感測器在不同時間的數據。例如可分析一段時間內，地鐵、計程車或餐廳人潮的變化，作為智慧城市發展的參考，或是分析穿戴裝置或醫療設備上的心跳變化數據等。

用開源框架LIME來面對不可解釋性的挑戰

不過，雖然深度學習可帶來精準預測，但卻有不可解釋性的問題。Stephen Brobst表示，一般線性數學有公式可以解釋預測結果，但由於深度學習由層層神經網路堆疊而成，涉及非線性數學，而其中又有許多隱藏層，就像黑盒子一樣，無從理解演算法運作的原理。也因此，人們對於深度學習演算法做出的決策，會抱持懷疑態度，像是在金融業等，對可解釋性就有嚴苛的要求。而在醫療方面，Stephen Brobst舉例，雖然已知某套演算法的判斷能力通常比人要好，但當它告知醫生該給某位病人截肢時，醫生還是會質疑，或是不願意做，因為他們不了解系統下決策的原因。

然而，面對不可解釋性的挑戰，Stephen Brobst表示，現在也有一些方法用來加強深度學習的可解釋性，其中一個就是華盛頓大學開發的開源框架LIME（Local Interpretable Model-Agnostic Explanations）。LIME試圖透過一些局部保留、取樣的作法，嘗試建立一個較可理解的解釋層，例如用簡化模型來描述深度學習模型所抽取的特徵，來幫助解釋為何某些特徵比較重要。丹麥銀行的防詐騙深度學習模型也應用了LIME框架在深度學習模型上增設了一個解釋層，來說明諸如封鎖某交易的原因，提高透明性來爭取顧客信任。

CTO小檔案

Teradata技術長Stephen Brobst

學歷：MIT電腦科學暨人工智慧博士

經歷：1999年進入Teradata，現為該公司技術長，主導產品技術研發，2014年時更入選為美國Top 4技術長。加入Teradata前，他則是一位連續創業家，創立過Tanning、NexTek和Strategic科技系統等三家專注於資料庫技術的新創。不只業界經驗豐富，也曾任教於波士頓大學和麻省理工學院。

公司檔案

Teradata

● 成立時間：1979年

● 主要業務：提供客戶大數據分析、資料倉儲和整合行銷管理解決方案

● 總部：美國俄亥俄州

● 全球員工數：11,100人

● 年營收：約21.6億美元（2017年）

● 總裁兼CEO：Victor Lund

公司大事紀

● 2014年：併購Think Big Analytics

● 2016年：推出Teradata Everywhere服務

● 2017年：發布Teradata分析平臺

● 2018年：在分析平臺中，新增4D Analytics功能

企業如何善用深度學習？全球Top 4技術長告訴你

機器學習和深度學習的應用與工具

用開源框架LIME來面對不可解釋性的挑戰

熱門新聞