克服Big Data挑戰的曙光

Big Data大概是繼雲端運算之後，最熱門的科技名詞了。一些科技大廠不約而同，紛紛打出Big Data口號，情況就像當年的雲端運算熱潮一樣。這到底是怎麼回事？

Big Data照字面翻譯，就是「大資料」，而這個「大」，最起碼包含3種意思：一群大量的資料、一筆很大的資料、一個很大的資料庫。所以就中文譯名來看，不論是翻成「大資料」或「巨量資料」，其實都只能點出Big Data的部分特性。然而，不管是大資料或是巨量資料，都指向一個共同的趨勢，就是數位資料增長的速度越來越快，而之所以能構成Big Data這個新議題，就在於資料量之大已異於往常，使得既有的技術難以處理。

以往只有少數的產業會面臨巨量資料處理、分析的需求，例如氣象、基因、科學模擬，或是金融交易詐欺分析等等，但隨著科技應用的改變，有更多的產業也面臨巨量資料分析的挑戰。例如搜尋引擎業者要索引全球的網頁，就是一個艱鉅的任務；電子商務業者要掌握顧客消費行為，所要分析的數據也越來越多。

去年我們的記者在寫Big Data的報導時，採訪了eBay的使用經驗，然而我有眼不識泰山，看到稿件上寫著eBay的資料庫每天增加50TB，還一度懷疑是不是把GB誤寫成TB，或是記者粗心把5TB多加了個零，結果真的是50TB。因為eBay每天最少都有數百萬次的商品查詢，資料庫每日增加1.5兆筆記錄，而資料庫的總容量則已超過9PB。所以，不僅每天新增的資料量龐大，連資料庫也是超級龐大，而要從中分析顧客的瀏覽、消費行為，就是一件困難的事情。

其他像是大家熟悉的Facebook社群網站，每天都有數億使用者留下龐大的資料，甚至其中有很大的比例是圖片、影片等傳統資料庫系統較不擅長的非結構化資料。這不僅挑戰社群網站業者如何管理，對於想利用社群網站來掌握消費者動向的企業而言，所面臨的挑戰也是前所未有的。

美國最大的超市Wal-Mart，既要分析顧客在網站上的購物行為，還要分析消費者是透過哪些關鍵字的搜尋而找上門，甚至，Wal-Mart想要進一步分析顧客在Facebook等社群網站的動態。Wal-Mart過去透過結帳資料分析，將啤酒與紙尿布擺在一起，促長了啤酒的銷售量，此舉令人津津樂道。然而，這已經是屬於事後分析，未來他們想要更主動了解顧客在社群網站反應的個人狀態，早一步掌握潛在的消費需求，有可能他們以後會比父親更快知道女兒懷孕了。

其實臺灣的製造業也面臨相同的挑戰，例如隨著晶圓的製程越來越精細，要掌握更精細的製程分析資料以確保良率，就必須分析比過去還要多很多的資料。那麼如何有能力分析巨量資料，以及在可接受的時間內完成資料分析，就是個關鍵了。為此，像台積電這樣的公司就早早布局Big Data的關鍵技術──Hadoop。在台積電起碼有2個人擁有目前實屬罕見的Hadoop證照，而全台灣擁有這張證照的加起來不超過20個人。

未來會有更多的產業要面臨龐大資料量的挑戰，而目前走在前頭的企業，都不約而同的採用Hadoop這樣的技術來克服難題。

Hadoop是基於Google搜尋引擎的分散式運算技術，Google的哲學是螞蟻雄兵精神，利用大量平價的伺服器，搭配平行運算架構，以最符合經濟效益的方式創造龐大的運算量。當Hadoop以此技術發展出巨量資料平臺，對企業而言無疑是一道克服巨量資料挑戰的曙光，因為企業可以不再依賴價格高昂的大型專屬設備，而可以透過自建大量伺服器叢集來解決。

最近，Hadoop終於發表1.0正式版，本期的封面故事特別深入分析Hadoop的技術應用。就像是只要給我一個支點，就能撐起地球，Hadoop就是撐起Big Data的那個支點。

吳其勳／iThome電腦報周刊總編輯

熱門新聞