Teradata甫於4月初發表了全新的通用資料儲存架構UDA(Unified Data Architecture),可用來整合RMDB和No-SQL資料庫以打造新一代大資料平臺。隨後也展開全球產品發布活動,緊接著在5月9日於上海舉辦大數據峰會來發表三項大資料新產品,包括了採用UDA架構的新版Teradata資料庫15版,可無縫查詢異質資料庫的QueryGrid平臺,以及新一代資料倉儲Appliance設備Active EDW 6750。

Teradata技術長Stephen Brobst(寶立明)也在大數據峰會前揭露了Teradata開發新一代大資料平臺的三項關鍵技術,包括了多重溫度資料管理技術、多態文件管理技術,以及延遲綁定技術(Late Binding)。Stephen Brobst認為,這也是當今發展大資料平臺最重要的三項技術。

所以,Stephen Brobst認為,將所有資料放入記憶體的作法是笨作法,因為得投資鉅資採用大量記憶體是沒有意義的作法,反而需要的是建立一套聰明的作法能依據資料熱度來動態分配儲存位置。

要懂得採用多重溫度資料管理技術

因為94%的系統I/O都集中於讀取資料倉儲系統內的3成資料,甚至高達43%的I/O只存取最常用的1.5%資料,這些經常使用的資料都是「熱資料」,其餘資料則包括了幾個月才用一次的溫資料,以及極少使用的冷資料,例如歷史性資料。隨著資料成長速度越來越快,而儲存成本也越來越便宜,所以,「採取分層儲存的方式來管理大資料才具成本效益。」他說,20%的熱資料可使用記憶體,溫資料則可使用SSD,冷資料則可善用便宜的硬碟來儲存。這正是開發大資料平臺的第一項關鍵技術「多重溫度資料管理」。

其次,另一個更大的挑戰是,Stephen Brobst表示,這些有資料都有結構,只是並非都是企業熟悉的關聯式資料結構,而是各有不同的資料結構。但是,企業得認清一個新的事實,未來的挑戰正是得處理各種新的資料型態,目前53%的企業非常辛苦地蒐集各種不再企業常用關連資料庫內的非傳統類型資料,這些非傳統類型的資料包括如XML資料、Web Logs、非結構化檔案資料、多媒體資料、事件式或短訊形式的資料等。再加上新的分析需求,尤其是針對社交網絡的分析方法大多難以透過傳統資料庫分析來實現。所以,另一個打造大資料平臺的關鍵技術就是多態文件系統。

Stephen Brobst表示,採用多態文件系統,例如不只能存取關聯式資料,還能支援圖學網絡資料、Key-Value資料庫、多媒體等不同類型檔案,才能夠因應不同的分析需求,例如時序分析、圖學分析、文本分析、深度資料探勘需求等,來支援新的開發典範,例如Hadoop常用MapReduce分析方式。

最後,Stephen Brobst表示,大資料的挑戰不只是要改變儲存方式,還需要思考新的資料處理方式。例如eBay上隨時有數百萬人使用網站,eBay記錄使用者瀏覽Log的單一資料表就儲存了4兆筆記錄。

不只資料量大,更大的挑戰是,Stephen Brobst表示,現代網站都是動態產生而且隨時改變內容,傳統ETL工具先將非結構化資料抽取成結構化資料的作法將會受到考驗,「對於互動式的資料,用結構化方式保存資料的作法不再有效了」他說,這無法處理像eBay網頁Log這類的資料。

資料處理模式要從提前綁定轉為延遲綁定

所以,大資料的另一項關鍵技術是延遲綁定的新型態資料處理模式。Stephen Brobst表示,不能像過去的Early-biding(提前綁定)作法,先在取得資料的時候建立資料結構,而是在使用資料時才建立資料結構,這就是延遲綁定。Stephen Brobst表示,可以結合ETL資料處理方式和NoETL的作法,將半結構化資料抽取出常用的資料結構,再將其餘非結構化的資料,透過延遲綁定作法儲存在半結構化欄位中,等到使用資料時,再動態建立Schema結構,這樣就不需要花時間建立複雜的資料模型,也不容易受到資料模型變動的影響,也能加速ETL處理速度。

例如eBay採取結合延遲綁定的作法後,一個從4兆筆記錄中取得1億筆資料的SQL指令,32秒就能執行完畢。eBay稱這種結合延遲綁定技術的資料查詢語法稱為SQL ++,可以更有彈性的查詢非結構化的資料。

如此一來,Stephen Brobst表示,利用Hadoop來提供便宜的PB級儲存系統,將這些大量不同類型的資料集中成為資料湖(Data Lake)後,再利用延遲綁定技術建立一個快速查詢平臺,就能打造出讓資料科學家進行資料研發(Data R&D)的平臺,來滿足大資料時代的創新需求。

Stephen Brobst表示,因為真正的創新得先失敗,而且99.9%的嘗試都會失敗,不過只要成功那一次的價值,能夠遠超過失敗的成本,那就值得去做。因此,「在大資料的時代,要能夠具備快速且便宜的失敗能力,才能儘快找到成功的機會。」

 

Teradata技術長展示了eBay結合了延遲綁定技術後的SQL查詢語法,來加快大資料查詢速度,查詢上億筆只需32秒,eBay稱為SQL++。


Advertisement

更多 iThome相關內容