不少傳統資料倉儲廠商從2013年開始跨進雲端,老牌資料倉儲廠商Teradata在2013年第4季也開始提供Teradata Cloud雲端資料倉儲服務。而IBM則是於2014年第1季開始提供Blu Acceleration for Cloud服務。

2014年,Amazon首度被擺進資料倉儲魔力象限圖的挑戰者象限,Gartner認為,純雲端資料倉儲廠商已能與傳統資料倉儲廠商抗衡。

Gartner表示,Amazon的資料倉儲Redshift已有超過2,000個客戶,而且顧客滿意度與使用者經驗評等是所有資料倉儲廠商中最高,顧客同時也認為,Amazon提供的資料倉儲服務不只便宜,部署時間短以及應用彈性高也是Redshift的強項之一。早在2012年時,Redshift就已經上市了,是目前在Gartner魔力象限圖中,最早開始提供雲端資料倉儲服務的廠商。

 

Amazon在2014年,首度被擺進Gartner的資料倉儲魔力象限圖的挑戰者象限,表示純雲端DW已能與傳統DW廠商分庭抗禮。(圖片提供/Gartner)

 

不只這些資料倉儲廠商發表了雲端上的產品,也開始有少數積極擁抱技術的企業願意買單。例如日本無印良品從2012年開始,有計畫地布局O2O(Online To Offline)營銷模式,為了分析來自手機和網站上600萬會員的頁面點擊資料,包含交易和商品瀏覽行為,也將核心營業與銷售資料放到Amazon的雲端資料倉儲。

不只是國外,臺灣知名網誌平臺痞客邦,也從去年第3季開始,將3億篇網誌文章與百億筆Log放上Redshift,加以分析這些從2003年累積至今的資料,不只能改善既有的網誌使用者經驗,甚至還推出能直接產生商業價值的網誌社群資料分析服務。

大資料成為資料倉儲上雲端推手

微軟全球資料平臺總監湯中權說,雖然企業採用雲端解決方案的步調是慢的,但企業面臨的資料量日益增加,大資料將會催化資料倉儲上雲端的趨勢。

湯中權認為,驅使企業採用雲端資料倉儲有3大推力,第一、企業自建的資料倉儲資源已不敷使用,當容量不足需要增加硬體設備時,可能受限於原有的系統架構,導致需付出大量成本,而雲端的特性之一便是高度的可擴展性,因此對企業儲存容量的需求,能更有彈性的支援,而且專門提供雲端服務的廠商,所擁有的資料中心規模是企業自建的幾百到幾千倍,就資料倉儲建置成本動輒數千萬來說,再考量邊際成本下,採用雲端資料倉儲是比較划算的。

另外,臺大資工系特聘教授林智仁也說,數位化的時代,一切的資料都會被保留下來,企業無不想收集所有平臺以及設備產生的各種Log,期望藉著提煉這些原始資料,萃取出巨大的商業價值。

在企業權衡風險與投資下,雲端技術提供另一項選擇,大幅降低跨進資料倉儲的資金門檻,企業會因較低的風險提高採用意願,尤其是資金不充裕的中小企業,即使對大企業來說,自行建置的資料倉儲規模要夠大,成本才有機會低於雲端資料倉儲,況且為了應付資料倉儲的基礎架構,企業還需要聘請專業人才,人力資源以及專業能力的培養也是自建機房需要考量的重點。

痞客邦共同創辦人暨技術長朱皇韋表示,當初他們的大資料專案只是測試性質,想試著分析網誌平臺上所累積的資料,但是由於之前他們所使用的MySQL,在處理龐大資料上已不敷使用,他們想找另外能夠處理大資料的資料倉儲系統,但又因為只是測試,也不敢貿然的採購一套動輒上千萬的資料倉儲設備。

他說,Amazon的Redshift雲端資料倉儲服務,一開始不需要投入大量成本,也不需要自建機房,雲端服務馬上就能使用,而且跟MySQL一樣支援SQL語法,因此各種條件權衡下便選擇Redshift。

湯中權提到企業採用雲端資料倉儲的第二推力,資料倉儲上雲端可減少資料搬移的成本。越來越多的雲端App產生,因此在雲端產生的資料直接存入雲端資料倉儲中,雲端App也能直接取用。由於存放在資料倉儲中的資料,動輒上億筆,因此資料流的規劃將考量後續存取的便利性。

微軟營運暨行銷事業群副總周旺暾說,過去資料倉儲的異地備援需要寄送磁帶當作傳輸媒介,而隨著網路技術的成熟,雲端資料倉儲的異地備援變得容易,只要壓縮檔案後透過網路傳輸,例如可以同時在高雄甚至是新加坡的資料倉儲備援。

湯中權提到最後一點企業採用資料倉儲的推力,是雲端上擁有可彈性調度的運算資源,由於資料倉儲存放用來分析、具時間序列以及不變動的資料,因此在將資料從一般資料庫放入資料倉儲前,需要經過ETL(Extract-Transform-Load )前處理,透過應用程式將原始資料轉換成適合長期儲存的格式,而ETL的過程相當耗費運算資源。

以痞客邦為例,在採用Redshift之前,幾百億筆的Log檔案存放於Amazon的雲端儲存服務S3上,而S3是以檔案形式儲存資料,但Redshift是類似關聯式資料庫的服務,因此當痞客邦要開始將S3上的Log檔轉入Redshift中前,需要經過大量運算的ETL程序,將Log資料拆解後匯入Redshift。

湯中權表示,ETL龐大的運算量,對於企業自家的資料中心有限的軟體以及硬體資源來說,是負擔很重的工作,往往需要占據整個資料中心的運算資源,但是雲端資料倉儲能夠快速的調用運算資源,更有彈性的應付運算量變化。

雲端資料倉儲適合存放非敏感性的資料

湯中權認為,雲端資料倉儲適合儲存非敏感性的資料,如預測天氣用的氣溫、風向、氣壓以及雨量等資料,或是未來物聯網時代數以百億計的裝置將連上網路,各種設備產生的Log等,企業想用自家的資料中心分析這些資料,將花費太多運算資源。湯中權說,更遑論一般企業並不會有這麼多運算資源可以使用。

另外,企業所顧慮的敏感資料仍可以放在自家的資料中心,公有雲跟私有雲可以混合使用。而亦思科技HareDB系統開發處長江孟峰則表示,以半導體產業來說,廠商態度保守,因此資料皆放在自家的資料中心。

周旺暾認為,企業沒有一定要使用雲端資料倉儲,只是將雲端技術應用在資料倉儲上,能夠藉由雲端技術帶來的好處,讓使用者更方便使用。湯中權與林智仁一致認為,雲端資料倉儲是個趨勢,未來應用也會朝這個方向靠攏,但是就像是LED燈泡一樣,沒有急迫性更換的理由,市場不會一口氣全部將傳統燈泡換成LED燈泡。

 

臺大資工系特聘教授林智仁表示,雲端資料倉儲建置資金門檻較低,讓資金不充裕的企業,能更彈性的選擇與應用。

 

微軟全球資料平臺總監湯中權認為,大資料的時代來臨,企業將面臨處理龐大資料的壓力,這將迫使企業將資料放上雲端處理。

 

相關報導請參考「資料倉儲上雲端」


Advertisement

更多 iThome相關內容