在巨量資料處理方面,特別是非結構資料的處理,微軟選擇以Hadoop為中心,主要是因為微軟看重開源社群的重要性,因此,微軟將會在Hadoop的基礎上,增加一些更好用的工具,讓企業可以在熟悉的系統環境中,整合分析結構資料與非結構資料。

因應巨量資料市場崛起,微軟決定全面支援Apache Hadoop,從資料處理平臺底層到前端的資料分析工具,微軟都將與Apache Hadoop充分整合,在非結構資料處理上,未來將以Apache Hadoop為中心,這個策略是否意謂著微軟放棄開發非結構資料處理平臺。負責微軟中國與微軟亞太地區前瞻科技研究與產品研發策略佈局的微軟全球資深副總裁暨微軟亞太研發集團主席張亞勤表示:「在巨量資料處理的架構上,微軟是把Hadoop當做是一個重要的元件,但不是全部。微軟還是會持續發展SQL Server以及Azure等。」

Q:你認為在3、5年後,巨量資料會對IT、社會帶來什麼樣的影響?巨量資料帶來的影響,會如同雲計算如此巨大嗎?

A:在個人電腦時代的殺手級應用,如果是Windows作業系統,那麼,雲端時代的殺手級應用,就是巨量資料(Big Data)。巨量資料的發展將與雲端運算彼此牽動。一個是平臺,一個是應用,就像是Windows作業系統與Office應用軟體之間的關係一樣,Windows作業系統扮演的是平臺,Office則是這個平臺上的重要應用。

相類似的資訊科技發展軌跡,還可以從個人電腦與網際網路的發展看到端倪。在個人電腦平臺上,網際網路無疑是最大的應用,一方面展現了個人電腦應用的極致,另一方面也因為個人電腦,網際網路才得以讓更多人用比較便宜的方式來使用。

巨量資料具有多種層面的不可預期,資料來源往往不只一兩個應用系統,而且資料格式也很多,這些大量又複雜的資料,如何儲存,然後進一步運算分析,甚至即時回應需求,都是新的挑戰。以現有的技術來看,雲端的高性能、低功耗特性,是最理想的巨量資料處理平臺,而且雲端的技術架構與服務型態,相對比較有彈性。

此外,由於雲端是有資料中心的,所以是屬於集中式架構,但資料中心卻又同時分布在不同區域,所以,一方面可以因應Mobile等即時資料處理需求,另一方面又可以因應企業大量的批次資料處理。

龐大的資料量與不同型態的資料,如果是以一臺伺服器或單一資料中心來完成,是非常不容易展現效益的,尤其網際網路應用所延伸出來的資料,原本就是屬於分散式,雲端運算則能把巨量資料的各種資料源進行適當儲存、運算,然後產生即時分析結果。Q:微軟剛推出的Hadoop on Windows、Hadoop on Azure,就是微軟對巨量資料的答案了嗎?

A:在巨量資料處理的架構上,微軟是把Hadoop當做是一個重要的元件,但不是全部。微軟還是會持續發展SQL Server以及Azure等。重要的是,微軟把Hadoop整合到一個企業熟悉的系統環境中,讓企業可以在熟悉的系統環境中,就能處理結構資料與非結構資料。

在巨量資料處理方面,特別是非結構資料的處理,微軟選擇以Hadoop為中心,主要是因為微軟看重開源社群的重要性,因此,微軟特別成立了Open Technology團隊,來與開放原始碼社群合作。

微軟在結構資料處理上,已經有SQL Server。在非結構資料處理上,也絕對有技術能力。事實上,微軟的搜尋技術Bing,就用了MapReduce平行分散運算的技術概念,其他還有許多正在開發中的專案,也運用了非結構資料處理技術。但是,對於巨量、非即時的非結構資料處理,微軟現在的策略是用Hadoop。

Hadoop的價值,等於是非結構資料處理的引擎,擅長巨量資料的批次處理,但是,Hadoop對動態資料的即時處理卻相對不足。另外,Hadoop的使用者介面與資料分析呈現工具,也不是很好。所以,微軟會在Hadoop的平臺上,增加一些新的、好用的工具。

以動態資料的即時處理來說,微軟就另外開發了StreamInsight,來因應這方面的資料分析需求,舉凡Mobile Data以及Senson Data企業都可以透過 StreamInsight處理,讓使用者端可以整合分析SQL Server以及Hadoop平臺上的資料,然後以SharePoint、Excel、PowerPivot等來做前端最好的呈現,讓結構資料、非結構資料以及動態資料的分析結果,可以視覺化的工具來呈現。

Q:巨量資料的發展,未來會朝哪些方向演進?

A:非結構資料處理上,未來的市場發展方向是,企業不再需要自己改寫Hadoop平臺的元件,一方面是因為Hadoop仍在不斷進化,另一方面,微軟等相關領域的廠商也會推出更貼近企業需求的產品,讓企業可以更方便整合分析結構資料與非結構資料。

早期,Facebook與Google等是因為沒有現成可用的非結構資料處理產品,才不得不走向自己開發這條路,然後又因為即時的資料處理需求,被迫進一步在Hadoop的基礎架構上,改寫一些元件,來因應即時的資料處理需求,後來甚至又有Cassandra分散式資料庫等其他的延伸應用。

對於Hadoop,企業可以從兩方面來思考,首先,企業如果沒有非結構資料分析需求,大可不必為了Hadoop而Hadoop。如果企業有非結構資料分析的需求,但沒有非結構資料處理技術,並不需要另外投入資源去改寫Hadoop,也能藉由微軟等相關資訊廠商所提供的非結構資料解決方案或平臺來因應。Q:相較以往的資料處理技術,你認為巨量資料帶來的變革與價值是什麼?

A:巨量資料的發展,並非無中生有,各種應用與設備所產生的資料量原本就很多,所以,原本就有很大的巨量資料處理需求。現在,由於相關技術的突破,讓儲存與運算資源越來越便宜,加上非結構資料等巨量資料處理技術慢慢形成,使得資料分析邁向一個新的世代。30年前,要儲存1TB的資料,必須花費16億美元,現在只需要100美元就能做到,這一點就與過去非常不同。

當然,巨量資料處理的技術,整合了許多不同的資訊科技,包括搜尋技術、Machine Learning、資料探勘、數學模型、統計模型等各種新的演算,讓資料處理的範疇,得以從結構資料延伸到非結構資料。相較於商業智慧等結構資料的處理,巨量資料已經顛覆傳統的資料分析思維。

結構資料處理的模式,基本上,是有固定答案的,當資料儲存到資料庫時,資料之間的關係以及交叉分析之後會產生的結果,原則上是在一個可預期的範圍內,所以,在提出問題之前,答案其實早就已經存在資料庫中,企業從中得到的分析結果也是有限的。

但是巨量資料的分析範疇,除了結構資料,還包括大量的非結構資料,使得資料分析的結果,跳脫了原本結構資料可預期的框架,讓企業可以藉由巨量資料的綜合分析,進一步預測並且協助企業來做營運決策。這是與過去完全不同的一點。企業可以進行超乎以往的分析,得到原本所不知道的分析結果。

巨量資料其實就像是一個決策引擎。企業如果懂得運用好的資訊科技,就可以萃取出巨量資料的價值,將資料轉換成資訊,再將資訊變成知識,最後做出決策,來協助企業強化業務營運與市場競爭力。在資料處理技術上,平行分散運算技術Hadoop確實啟動了一個新的變革,讓資料處理推向更大的分析範疇。

早期,Intranet的應用讓企業內部開始有了小規模交流,直到Web技術出現,才跨越到Internet時代,讓網際網路之間的溝通有了共通標準的語言。Hadoop也是一樣,既是非結構資料處理的重大技術突破,也是非結構資料處理的共通標準。讓企業可以綜觀結構資料與非結構資料分析的結果。讓所有的分析與預測更加精準。

在第四典範《The Fourth Paradigm:Data Intensive Scientific Discovery》這本書中,可以看到不同時代的科學研究典範轉移,而且也清楚勾勒現在這個時代的典範,就是以資料為中心的時代。

數千年前,人類的科學研究處於「經驗科學」階段,只能以紀錄觀察的方式,來描述自然現象的觀察經驗與研究;數百年前,開始利用公式模型與歸納方法來做科學研究,因而慢慢有了克卜勒定律、牛頓定律、馬克斯威爾方程式等,讓人類的科學研究邁向「理論科學」階段。

然而,對於有些問題,用公式模型等理論科學階段的方法來解決,則會變得更加複雜,因此,數十年前,人類開始嘗試用數據來模擬/運算複雜的現象,使得科學研究步入「計算科學」階段;現在,科學發展走過「經驗、理論、計算」三個階段,逐漸到了以「資料」為中心的時代,也就是科學研究的第四典範──資料密集科學(Data-Intensive Science)時代(也被稱為eScience)。

在資料密集科學(Data-Intensive Science)時代,資料呈現爆炸式的成長速度,微軟預計未來每2年就會刷新紀錄,猶如新革命一般影響相關的資料處理技術與應用。

過去因為欠缺資料,所以必須依賴模型,現在,巨量資料處理技術與雲端運算平臺,已經有能力以高性能、低功耗的方式,收集並且分析結構資料、非結構資料,甚至動態的即時資料,企業不再需要複雜的資料分析模型,也不需要強大的硬體資源,就可以經由大量的資料與Machine Learning技術,形成一個正向循環的互動學習模式,然後不斷進化,最終企業可以用非常簡單的模型,來處理巨量資料,讓企業可以把資料視為戰略資源,藉由大量又可信的資料來做商業決策。

Q:未來,微軟是否計畫推出自己開發的非結構資料解決方案?

A:在非結構資料處理上,微軟現在是以Hadoop為中心,這是微軟現階段的長期策略。採訪⊙吳其勳、楊惠芬 整理⊙楊惠芬

熱門新聞

Advertisement