關於資料倉儲雲端服務RedShift的強化,是AWS今年在資料分析應用領域主打的特色,執行長Andy Jassy在年度大會主題演講當中,陸續宣布RA3、AQUA、Federated Query、Data Lake Export等多項功能。

在2019年底舉辦的re:Invent大會上,AWS針對資料儲存與資料庫應用,例如,資料湖服務S3和資料倉儲服務RedShift,均新增了新的特色和服務,大幅強化安全性與效能,同時,也針對Elasticsearch和Cassadra這兩套NoSQL資料庫,分別推出成本更低的儲存層級與代管服務。

加強與簡化S3的存取控管

S3是業界相當知名的雲端儲存服務,也是AWS支援資料湖(Data Lake)應用的重要平臺,然而,這幾年以來,因用戶雲端儲存服務設定不當而導致大量資料外洩的事件頻傳,也讓企業對於是否要繼續使用S3,而產生安全性的疑慮。面對這樣的資安挑戰,AWS執行長Andy Jessy在大會第二天的主題演講當中,宣布推出S3 Access Points的功能。

這樣機制的出現,可簡化用戶對於S3資料存取方式的管理。他們能夠更容易管理S3環境當中每個儲存桶(bucket)的數百個存取點,針對應用程式自定名稱與存取權限許可,這麼一來,不只是為共用資料集的存取提供新的方法,針對共享S3資料桶存取方法的建立與維護,也能更為便利。

先前,用戶只能在單一資料桶的政策上,定義並管理各種應用場景,現在有了S3 Access Points,用戶可根據不同的應用程式與儲存規模來設定存取點。基本上,每個存取點都是採用不同的主機名稱,能讓用戶藉此建立與強制施行個別的存取許可,以及網路控制措施,而這邊所搭配的存取政策,可搭配前置字元標籤與物件標籤來實施不同的許可,因此,能以此限制使用者所能存取到的S3資料。

在物件資料存取設定上,S3用戶能將其他人或應用程式所能接觸到的範圍,局限在AWS虛擬私有網路(VPC)到防火牆之間,而這項功能當中提供的服務控管政策(Service Control Policies),也能用於確保所有S3存取點都處於限用的VPC當中。

雲端資料倉儲新增多項功能,提升延展性、查詢效能與降低操作難度

RedShift近期推出的服務項目,其實不只是年度用戶大會主題演講所提到的部份,在效能與延展性、簡易操作、資料湖整合等三大層面上,都有新的特色

針對資料庫類型的雲端應用需求,往年AWS發表的重點都是資料庫服務Aurora,今年很特別,主角換成資料庫倉儲服務RedShift,這套2012年問世的雲端服務,在Aurora問世之前,曾經是AWS成長速度最快的業務,今年終於換它獨領風騷。

AWS本次發表了幾項資料分析應用服務,其實都跟RedShift有關。首先,是名為RedShift RA3 with Managed Storage的執行個體正式推出,能讓用戶個別擴展執行個體的運算資源與儲存資源。而在這樣的擴充彈性之下,若相較於其他雲端資料倉儲,RA3的效能領先幅度可達到3倍。

AWS也公布採用這項服務的公司,像是語言學習平臺Duolingo、商家評論網站Yelp、儲存裝置廠商Western Digital,以及電信業者NTT DOCOMO、傳媒集團福斯公司(FOX Corporation)。

所謂的個別擴展,是指用戶可以根據資料倉儲的工作負載效能需求,來選擇執行個體的數量;而在儲存空間的費用上,也只需要支付目前用到AWS代管儲存的容量,目前在每一個RA3執行個體搭配的RedShift Managed Storage,使用的是大容量、高效能的固態硬碟,作為本機儲存空間,以及S3作為長期、高耐用度的儲存空間。如果執行個體當中的資料超過本機儲存的容量,RedShift Managed Storage會自動將資料卸載到S3,但不論資料位於本機儲存或S3,用戶僅需支付RedShift Managed Storage的費率,以及RA3的本機儲存容量費用。

另一方面,RA3執行個體本身是建構在AWS Nitro System之上,而具有相當高的網路頻寬(100 Gb/s),可進一步減少資料卸載至S3或從S3取回的時間。目前在執行個體的供應上,AWS本週已經開放租用16xlarge(ra3.16xlarge)的服務項目,可支援8PB壓縮資料的工作負載,到了2020年初,RA3將提供4xlarge的執行個體選擇。

接下來是與提升資料倉儲查詢效率有關的進階查詢加速器(Advanced Query Accelerator,AQUA),AWS將這項服務稱為AQUA for Amazon Redshift,預計在2020年中正式登場。

圖中是AQUA for Amazon Redshift的架構,能讓RedShift運用分散與硬體加速處理技術。用戶可將子查詢的提出與接收,以及查詢結果的過濾與匯聚,卸載到AQUA節點處理,毋須每次都連到S3來存取,因而能減少資料搬移作業,同時,又能支援平行處理與橫向擴展。

AQUA能夠為RedShift提供分散式的硬體加速快取,與其他雲端業者提供的資料倉儲服務相比,在查詢作業的效能上,改善幅度可達到10倍之多。目前已採用該項服務的企業,有財務軟體廠商Intuit,以及福斯公司。

之所以能夠提供如此大的效能提升,在於AQUA能將運算層帶到儲存層,因此用戶不需在兩者之間來回搬移,它是建在S3之上的高速快取架構,能夠橫向跨展多個節點,並且在這些節點之間進行平行的資料處理,而且每個節點都擁有一套硬體模組,當中採用了AWS設計的分析處理器,能夠大幅加速資料的壓縮、加密,以及過濾、匯聚等資料處理作業。相較於其他雲端資料倉儲存服務讓用戶直接查詢原始資料,這套架構可提供更快的資料查詢速度,以及更大的規模擴展能力,能讓用戶獲得即時反應效果更佳的儀表板,以及縮短開發時間、易於維護系統等功效。

此外,這套架構也相容於現行版本的RedShift,用戶可將既有的資料倉儲遷移過去,不需要修改程式碼。

另一個與資料倉儲相關的功能是聯邦查詢,稱為Redshift Federated Query,有了它,用戶分析資料的範圍將可同時橫跨多個AWS雲端服務,包括資料倉儲(RedShift)、物件儲存(S3),以及關聯式資料庫(RDS、Aurora)。以目前來看,AWS已經開始提供這項服務的預覽版本,而先行採用的企業則有福斯公司、網路安全公司Sophos。

基於這項服務,用戶可運用熟悉的SQL語法敘述,即能橫跨多種資料儲存來結合所有資料,進而簡化應用程式開發方式。有了聯邦查詢,RedShift查詢也能存取這些作業型的資料庫系統,提供更為即時與更新的資料,近來帶來更理想的分析與決策支援。當然,這樣的作法也對雲端資料倉儲的效能,帶來極大的挑戰,對此RedShift query Optimizer會進行智慧型的大規模分散式處理,以便服務底層的資料庫。

而在橫跨不同資料儲存的應用上,AWS本週也正式推出RedShift Data Lake Expert的服務,目前已宣布採用該項服務的企業是Warner Bros。

用戶可將RedShift資料直接匯出到S3,而這些數據所採用的形態,會是針對分析應用最佳化的開放資料格式Apache Parquet。如此一來,用戶能夠把他們在RedShift完成的查詢結果,以開放格式儲存到S3資料湖當中,接下來,就可以運用AWS其他服務,像是SageMaker、Athena、EMR,來進行後續的資料分析。綜觀現在市面上的雲端資料倉儲服務,AWS認為並無其他業者可提供如此簡便的方法,能讓用戶查詢資料的同時,又能將資料以開放格式回寫至資料湖。

針對NoSQL資料庫的應用,提供較低儲存成本與更多系統的選擇

強化對NoSQL資料庫的支援,也是AWS今年用戶大會在資料分析領域的發布重點。首先,是針對Amazon Elasticsearch Service,提供了暖儲存服務(Warm Storage Service),稱為UltraWarm,目前開放預覽版本試用。這項新的儲存層級,能為現行的Elasticsearch Service用戶,提供儲存成本減少9成的新選項,相較於其他代管式Elasticsearch服務提供的暖儲存,也有儲存成本減少8成的競爭優勢,因此,若要在雲端Elasticsearch服務保存大量的現行與歷史記錄資料,搭配AWS專為該項服務的暖儲存,在費用負擔上,都將更為輕鬆。目前宣布採用該項服務公司,主要是家庭族譜與基因檢測公司Ancestry。

在實際運作上,UltraWarm能針對經常存取的資料,提供分散式快取,這裡面運用了進階資料存放位置管理技術,能夠判斷較少存取的資料區塊,並將它們搬移到S3快取之外;而且,這項服務也採用高效能的EC2執行個體,以便於與存放在S3的資料進行互動。基於上述的架構,能促使UltraWarm的查詢速度比其他暖儲存解決方案快上50%,同時,用戶在面對所有記錄資料時,還能保有相同的互動式分析體驗。

以目前AWS公布的規格來看,有了UltraWarm,用戶在單一Elasticsearch Service的叢集之中,最多可管理3PB的記錄資料,並且能夠橫跨多個叢集進行查詢,因此,可以更有效地保存現行與過往記錄資料,便於互動式作業型分析與圖表式呈現結果──在使用體驗上,用戶可以透過Kibana這套軟體提供使用者介面,輕鬆查詢與呈現近期與長期的作業資料,因此,不論是開發人員、DevOps工程師、資安專家,均可更簡便地使用AWS Elasticsearch Service,分析短期與長期的作業資料,而不需大費周章,從S3或Glacier存放的歸檔資料當中,將資料復原到Elasticsearch叢集當中,轉為主動、可搜尋的狀態,才能開始著手查詢,這一來一往之間,可能就要好幾天的功夫。

除了Elasticsearch的應用,AWS今年還推出另一套關於Apache Cassandra資料庫的完全代管服務,稱為Amazon Managed Apache Cassandra Service(MCS)。在這套雲端服務之中,開發人員可以繼續沿用與Apache Cassandra相同的程式碼(相容於Cassandra 3.11)、符合Apache 2.0授權的驅動程式,以及現今所用的工具,以便執行、管理與擴展Cassandra資料庫的工作負載,而且,用戶可省去維護資料庫系統底層IT基礎架構的負擔。

站穩關聯式資料庫雲端服務的腳步之後,AWS繼續推出各種專屬用途資料庫服務,強調用戶應該要能自由選擇所要搭配的資料庫,而今年他們新發布的資料庫服務,稱為Amazon Managed Apache Cassandra Service(圖中最右側),在AWS的代管下,讓企業也能輕鬆使用Cassandra這套NoSQL資料庫。

目前有哪些企業可能有意採用對這項服務?AWS列出了幾家公司,像是速食業者麥當勞,以及軟體廠商Adobe、Pegasystems、Reltio。

在實際運作上,由於這套資料庫代管服務本身採用無伺服器(Serverless)的架構,所以用戶毋須自行建立、設定與操作大型Cassandra叢集環境──因此,當資料庫流量規模變大或縮小時,用戶不必手動增減節點,以及針對多個資料庫分割區執行重新平衡的處理。

關於服務的效能保證,也是MCS的賣點之一,不論任何大小的執行規模,AWS提供給用戶的性能水準是低於10毫秒的延遲,系統會根據應用程式實際的流量,自動擴張或縮小資料表的規模,並以虛擬的方式提供無上限的網路吞吐量與儲存容量。

MCS這套服務的計費方式,未來也會擴增更多選項。以目前AWS提供的選擇而言,會隨用戶所需的服務容量而計價(on-demand capacity mode)──用戶僅支付應用程式使用的資源。到了2020年初,這套資料庫代管服務將提供預先配置容量(provisioned capacity)的選擇,讓用戶指定每個工作負載所需的服務容量,以便控管相關費用支出。

若是用戶在自建IT環境或AWS的EC2雲端服務,已有正在使用的Cassandra資料表,屆時也可以透過AWS移轉工具,搬遷到MCS。

 相關報導  AWS 2020雲端大戰略


Advertisement

更多 iThome相關內容