圖片來源: 

iThome

資料倉儲軟體Greenplum去年被儲存大廠EMC併購,原先僅有軟體產品,併購後旋即推出軟硬體整合的機櫃式產品,其中的DCA-1000,每個全櫃機櫃內含2臺主機伺服器,16個節點,搭配壓縮技術可達144TB的容量,最大可擴充到24個機櫃。同時,資料計價方式也從過去按照使用人數計算軟體授權費用,改由以資料倉儲系統中的資料量計費。

EMC業務協理楊傑儂表示,Greenplum最大的優勢在於它是一個可以同時支援SQL跟MapReduce語法的資料庫引擎。因此,在處理非結構性資料時,Greenplum並不需要再另外建一個分析平臺,而是可以直接讀取存在企業內部儲存系統中的非結構資料,並進行分析。大量的非結構性資料無論儲存在企業的SAN架構或是NAS架構,Greenplum會將這些文件當作是外部資料表(External Table),利用在資料倉儲系統上開發的MapReduce程式分析這些資料表。楊傑儂表示,不過,僅需進一步利用的非結構性資料才儲存在資料倉儲系統中,計價時,也只計算這部分的資料量,能解決儲存非結構性資料成本高昂的問題。

為了強化系統效能,Greenplum採用MPP(Massive Parallel Processing)架構,由2臺Master主機,和最多可擴充到上千臺的Segment主機,中間以網路連接。Master主機負責建立用戶端的連接和管理、SQL的解析與形成執行計畫、分發Segment執行計畫與收集結果等工作。資料的儲存、存取和SQL查詢的執行則由各個Segment負責。每個Segment都使用一般PC等級伺服器,上面會搭載Greenplum的資料庫軟體,各自擁有獨立的儲存硬碟、記憶體、CPU等。當執行查詢工作時,則是切分給各個Segment去執行,提高效能。

楊傑儂認為,隨著企業有越來越多分析需求,資料查詢的工作越來越複雜,資料存取的速度就很重要。因此,Greenplum將用來選擇、萃取資料的ETL(Extract-Transform-Load)伺服器獨立出來,連接內部網路,這個ETL伺服器會自動將資料分散到讓每一個Segment來進行分析,加快資料存取的速度。

 


相關報導請參考「PB級資料的挑戰:巨量資料來襲

熱門新聞

Advertisement