Teradata技術長Stephen Brobst(寶立明)表示,CIO不只是要蒐集大量的資料,還要培養一群資料科學家,來分析、萃取大量資料中的價值。

圖片來源: 

Teradata

資料倉儲廠商Teradata技術長Stephen Brobst(寶立明)來臺分享大資料未來趨勢,他曾是歐巴馬總統的創新與科技顧問委員會成員之一,也是2012年ExecRank評比的全美Top 15技術長之一。

Stephen Brobst認為,傳統的BI工具已經跟不上現在非結構化的資料處理,CIO面對大資料新局勢的IT策略,重要的還是要有新工具,以及提升IT人員的技能。且CIO在投資上,不只是要蒐集大量的資料,還要培養一群資料科學家,來分析、萃取大量資料中的價值。

 Q:大資料帶來哪些開發典範的轉移,CIO和開發者該如何面對?

 A傳統資料分析的資料來源很多都來自於帳單系統或銀行系統,這類資料都是結構性資料,結構性資料在關聯性資料庫裡有很多好處,傳統的資料分析方法是先定義資料結構(Schema),再匯入資料,接著再分析資料。

但我們發現大資料的資料內容並不是那麼友善,內容的變化頻率很高,所以以二進位(Binary)記錄資料是行不通的,而新的方法就是延遲綁定(Late Binding),在使用資料時才建立資料結構,新的技術如JSON(JavaScript Object Notation)程式語言,可以結合不同的資料類型。

傳統的BI工具已經沒有用了,因為傳統的BI工具都是提前綁定(Early-biding),在取得資料的時候就要先建立資訊結構。但是,現在的大資料幾乎是非結構化的資料,所以需要開發新工具來處理量大的資料,新創公司也大都採用新工具來解決大資料問題。

所以,企業的IT人員需要學習新技能,才能夠面對新的局面。CIO也要提出面對新局面的IT策略,來使用取代傳統BI和ETL的新工具。

 

 Q這是否意味著企業需要更多投資來購買新工具?

 A我不認為金錢可以解決所有問題,像是金錢就買不到技術,培訓員工也不完全只靠金錢,而現在有很多解決方案結合開源的解決方案,所以也不需要購買。

傳統企業時常避免使用開源方案,通常都直接購買現成的企業解決方案使用。

我認為,忽視開源方案的CIO不算是成功的CIO,但是這並不代表需要用開源取代所有的方案,企業應該要找到一個同時包含開源和商業解決方案的生態系統(Eco-System),而CIO再從中找出符合現況的做法。

CIO在一個新的專案中,若還是使用傳統的方式,而非開源方案,企業就應該要開除這個CIO,因為在新的專案中,CIO都應該要考量開源的解決方案,而非使用傳統企業專屬且限制很多的方案。

 

 Q  Google說MapReduce是舊的架構,已經無法滿足新時代大資料的需求,您認同Google的說法嗎?

 AMapReduce有個天生的瓶頸就是處理大量資料的效率不足,所以其擴充性並不理想,這也是為什麼Google說MapReduce是舊架構的原因。

而在Hadoop 2.0版本,可以採用不同的資料分析架構,如改用Spark,就不會受到MapReduce的限制。

Google使用MapReduce的資料規模可以達到PB等級,而多數企業的使用情況並不像Google,所以MapReduce對大多數的企業還是有用的。

 

 QHadoop 2.0版本就能夠解決大量資料即時分析的問題嗎?

 A其實也不盡然是如此,Hadoop 2.0版本可以選擇不同的程式開發模型(Programming Models)來提供更有彈性的資源管理,但是Hadoop的檔案系統(File System)仍有極限,像是互動式資料庫的存取還不夠有效率。

 

 Q處理大量資料和即時分析的需求只能二選一嗎?

 A與其只能二選一,不如尋找如何兼顧兩者的解決方案,在企業的生態系統中有多種解決方案和多種技術,而企業可以選擇自己需要的,例如,企業使用Hadoop做資料擷取(Data Capture)是合理的,但如果是要用Hadoop來即時呈現視覺化資料,這就不合乎常理了。

所以,企業處理大資料的不同階段時,應該要結合不同的技術和工具。

一個好的作法不是只能選這個或只能用那個,應該兼顧兩者,允許兩者合一,在對的平臺上解決對的問題。

 

 Q未來Teradata大資料分析產品是否會支援影像或聲音的非結構化資料?

 ATeradata已經開發了將聲音轉換為文字的相關產品。現在常見的資料格式還是以文字為主,而這些資料大多來自於感測器(Sensors)或社交媒體(Social Media),文字的資料還是比聲音普遍。影像資料並不是價值密度高的資料。我們目前只有雛型,還不算是完善的產品。

大資料中有個重要觀念是價值密度(Value Density),意思是指資料所能創造的價值,像是交易資料的價值密度就很高。舉例來說,在網路上購物,若顧客點擊這張產品圖片50次才發生1次購買行為,就比點擊40次得到1次購買行為的購買量低,前者的價值密度就較低。

再舉個社交媒體的例子,推特或臉書上的文字價值密度又比網路交易互動的資料價值密度更低,而影音資料的價值密度甚至又更低,目前還沒看到有足夠的誘因促使企業提出直接分析影音資料的需求,未來有這樣的需求時,而技術演進也會漸漸符合這樣的需求。

 

 Q資料價值該如何量化與評估?

 A資料必須要萃取或分析才會有價值,而在過去的經濟型態,人們多數競爭都以資本投資規模做為比較基準,多數都投資在機器採購,但是這些機器只有在生產產品的時候才會創造價值。

但現今經濟型態的競爭不再是以機器數量及生產量為基準,而是在於資料量的多寡,以及如何使用大量資料的成果,所以,CIO規畫IT投資時不能只是蒐集大量的資料,還要培養一群資料科學家,來分析、萃取大量資料中的價值。

有一種評估資料價值方法是業務影響模型(Business Impact Modeling)可用來衡量企業能力結合所擁有資料後能產生的價值,例如記錄企業銷售能力或留客能力的資料,將這些資料整理成一個能力特性和資料類型的比較矩陣。因為同樣的資料在不同的使用情境或業務流程上可以產生不同的作用或產生不同的價值。可利用機會矩陣(Opportunity Matrix)來反應不同資料在不同使用情況下有機會創造的價值,作為調整計算資料價值的加權權重。利用機會矩陣的作法,企業可以有系統性地規畫大資料的商業策略。

我認為,資料的價值是可以量化的,但不同資料所能產生的價值,則需要主觀來判斷資料所對應的價值,做為權重分配的參考,西北大學提供的機會矩陣方法可以是起點,但是企業還得依自己的需求或市場現況量身調整。

 

 QTeradata未來是否會提供大資料雲端服務?

 ATeradata大部分的客戶都是大型企業,原本已經有建立私有雲的基礎建設,而不使用公共雲的基礎建設,因為大量資料每天要從私有雲搬上公共雲的成本非常高,他們發現,企業使用內部私有雲更合乎成本效益。

目前,Teradata已在美國針對中小企業市場,提供大資料公雲服務,包括Aster Data服務和Hadoop服務。但在臺灣則還未提供,不過臺灣企業可以存取美國Teradata雲端服務, Teradata也持續觀察各國市場來考量是否推出相關的公共雲服務。

 

 QUDA架構能否支援非Teradata的產品?

 A統一資料架構(Unified Data Architecture,UDA)除了支援Aster資料庫外,也支援開源技術Hadoop和R語言等,以及其他廠商如SAS和甲骨文的資料庫、MongoDB等。

為符合用戶的需求,Teradata也已經推出統一資源連結(Unity Source Link),允許Teradata資料庫的用戶可以讀取(Read)和合併(Join)來自外部或國外的資料庫。


Advertisement

更多 iThome相關內容