圖片來源: 

攝影_何維涓

今年AI技術在市場上備受關注,許多企業對AI技術的採用躍躍欲試,各家雲端大廠也推出自家多項服務提供給企業,但是都得在雲端上運行,AI技術的熱潮,是否也意味著企業將資料上雲端是未來必然的趨勢?讓資料倉儲龍頭Teradata的技術長Stephen Brobst來告訴你。

Stephen Brobst在高階主管排名服務ExecRank排名中,曾與Amazon、Tesla Motors以及Intel的技術長並列全球前4大技術長,並曾創立過3家新創公司,而後到Teradata擔任技術長,17年技術長資歷更讓他成為歐巴馬的技術顧問。

依照Stephen Brobst的觀察,企業將資料上雲端,並非必然的趨勢,企業要先釐清上雲端的目的,他表示,根據Gartner統計,「目前只有低於3分之1的企業將資料放到公有雲,」安全性是企業最大的疑慮,目前多半企業只將自家資料,放在本地端或是私有雲。

許多人對雲端的安全性有所疑慮,Stephen Brobst卻有截然不同的觀點,「雲端其實比本地端還要安全!」他表示,想像如雲端龍頭大廠AWS,大約有6,000人在維護雲端的安全性,但是,若是一家企業,可能很難做到如此大規模的投入,他舉例,之前Sony公司被駭客入侵許多明星的薪水資訊外流,其實,被駭的全是本地端的系統,雲端完全沒有被入侵,因此,他認為,其實雲端比本地端來的安全。

不過,他表示,也有不少企業想將資料搬上雲端是為了節省成本,「那些雲端公司沒說的是,資料搬移的費用是非常昂貴的!」他坦言,並不是所有的企業都適合用雲端的服務,許多企業認為雲端比較便宜,其實若是像ICBC Bank、eBay這種大規模的企業,擁有大量的數據,將資料搬上雲端的費用十分驚人,但是,若資料量小的企業,將資料放上雲端確實相對便宜許多。

他也舉例一個有趣的作法,有些企業會用本地端和雲端互相配合的方式,用本地端部署系統,但是將備份全放在雲端,作為災難恢復(Disaster Recovery)的策略,他認為這是非常聰明的混合策略,由於雲端收費是按用量計費,但是備份資料平時幾乎不會使用,只需付存放的費用,對企業來說相對便宜許多。

即使上雲端的費用昂貴,Stephen Brobst表示,也有企業是為了敏捷性的考量,將企業所有的資料、系統搬上雲端,他舉例,Netflix現在沒有資料中心,Netflix為了省去在各地建立資料中心的工作,將所有的系統放上雲端,美國售票公司Ticketmaster也將所有本地端的系統,花了60天就搬上雲端,他認為企業上雲端也是達到敏捷性的策略之一,並非全然是價格。

「數據不會跟著分析,是分析要跟著數據,」他提醒,企業要清楚數據產生的位置,若數據都是在本地端產生,那要在雲端分析,就會花費不少費用,但是,像Ticketmaster就把訂購系統、財務系統等都放到雲端,如此一來,數據本來就在雲端,不需要額外付搬移數據的費用。

企業AI應用目前還面臨兩大難題

提到現在最火紅的AI技術,Stephen Brobst認為,AI這個詞彙比喻成雨傘,由於現在AI這個詞包山包海,任何與智能有關的東西,都包含在內,他表示,AI對他而言,更像一個行銷的用語,若以技術層面來看,他會先聚焦於機器學習和深度學習來探討。

依照Stephen Brobst的觀察,其實市場上許多企業高喊採用AI技術,但其實,真正有使用AI技術的企業,卻是少數,在大多數的企業中,以應用層面來看,都還在很初期的階段。

為什麼真正應用AI技術的企業目前少之又少?他坦言,AI技術目前還有兩大問題尚未解決,第一,企業的資料科學家需要知道數據分析過程中,每個決策的原因,他將深度學習演算法比喻成黑盒子,資料科學家就是要透過數據分析,了解數據的前因後果,但深度學習不像機器學習是線性回歸的模型,可以解釋每個決策過程,深度學習的隱藏層則埋沒了這些重要資訊,甚至,每次執行演算法所產生的隱藏層數量也不一樣,讓企業無法得到數據的洞察(Insight)。

他舉例,即使深度學習的結果令人滿意,像是銀行信用評估分析模型,管理者必須了解部門如何做出這樣的決策,避免是因為偏見、種族、性別歧視等不公正的評斷,醫療業亦是如此,若系統就只告訴醫生用這些藥治療病人,醫生不會憑著未知的知識,將病人的生命,冒著風險替病人治療。

不過,他表示,目前高科技製造業良率判斷和詐騙偵測這兩大領域,已經很成熟地運用深度學習技術,因為良率和詐騙偵測的決策原因沒有這麼重要,只要企業持續看到改善即可,但是醫療業、信用檢測這些就需要了解決策原因。

他也補充,目前有許多頂尖的科學家,正在開發可以看見每一層決策的類神經網路,也就是可以解釋的分析預測模型,若能解決這項問題,將會是企業能夠採用深度學習的關鍵之一。

第二則是AI的技術中,不管是機器學習或是深度學習都需要非常大量的資料,但大部分的企業資料量是不足的,導致企業採用深度學習演算法的效果不彰。

許多企業以為50,000筆數據是很大的資料量,但Stephen Brobst強調,用這樣的資料量來執行深度學習是不夠,「若要深度學習執行的結果是好的,你需要好幾百萬筆的數據才夠!」他比喻,深度學習演算法大約就像8歲的小孩,要一直不斷地給他資訊,從錯誤中不斷學習,才能慢慢的歸納出一套法則。

數據分析重點不是資料量,是如何整合多元數據

除此之外,雖然Stephen Brobst身為大數據倉儲公司的技術長,他表示,他從來就不喜歡大數據這個用語,大數據就只是數據的一種,目前,數據已經不是只看量多大,而是要去研究如何分析多元結構的數據。

由於目前許多數據來自不同的通道,像是網站的點擊紀錄、圖片、影音等,包含了結構化、半結構化和非結構化的數據,甚至還要結合政府的開放資料,例如天氣、交通等數據,他表示,若要能將這些多元的數據,妥善地分析、應用,是需要結合許多不同的方法和平臺,這也是目前數據分析最具挑戰的工作。

未來全產業都需分析IoT和感測器數據

近幾年,數據的收集與分析變化很快,Stephen Brobst強調,未來每個企業都免不了要分析IoT、感測器等裝置的數據,不再只局限於製造業的良率判斷或是生產線優化,邊緣運算(Edge Computing)將會是新的機會,但他認為,目前是以端點收集數據,共同回饋到中心的系統進行運算的方式進行,中心系統產生適合的演算法,再部署到各個端點裝置運行。

「你不會想在邊緣裝置上做learning,因為太慢,」Stephen Brobst一語點出目前邊緣運算,為何還是以中心產生模型推到邊緣裝置的方式,他解釋,若要達成即時分析的能力,就得每百萬分之一秒,來來回回在這些裝置的網路中,傳送、分析資料,這並不是很有效率,因此,基本上,大部分都是先從不同地方的裝置,收集數據,在中心系統建立適用的模型,在部署到邊緣裝置執行。

他表示,如此一來,可以避免時間延遲的問題,也可以用強化學習(Reinforcement Learning)的方式,讓裝置執行的過程可以一邊作為下一次改善的參考,若這次做錯了,可以把錯誤的訊息送回到中心的「大腦」調整演算法,再迅速地部署新版本的演算法到各個邊緣。

此外,他補充,若某個端點裝置發生例外情況,也可以將資訊送回中心,進而改善,這樣一來,未曾發生狀況的端點也可以了解到可能發生的問題,若有狀況則可以快速反應。


Advertisement

更多 iThome相關內容