【AWS雲端戰略大剖析：資料分析應用篇】看準資料倉儲與大數據商機，AWS主打高效能與低儲存成本

關於資料倉儲雲端服務RedShift的強化，是AWS今年在資料分析應用領域主打的特色，執行長Andy Jassy在年度大會主題演講當中，陸續宣布RA3、AQUA、Federated Query、Data Lake Export等多項功能。

在2019年底舉辦的re:Invent大會上，AWS針對資料儲存與資料庫應用，例如，資料湖服務S3和資料倉儲服務RedShift，均新增了新的特色和服務，大幅強化安全性與效能，同時，也針對Elasticsearch和Cassadra這兩套NoSQL資料庫，分別推出成本更低的儲存層級與代管服務。。

加強與簡化S3的存取控管

S3是業界相當知名的雲端儲存服務，也是AWS支援資料湖（Data Lake）應用的重要平臺，然而，這幾年以來，因用戶雲端儲存服務設定不當而導致大量資料外洩的事件頻傳，也讓企業對於是否要繼續使用S3，而產生安全性的疑慮。面對這樣的資安挑戰，AWS執行長Andy Jessy在大會第二天的主題演講當中，宣布推出S3 Access Points的功能。

這樣機制的出現，可簡化用戶對於S3資料存取方式的管理。他們能夠更容易管理S3環境當中每個儲存桶（bucket）的數百個存取點，針對應用程式自定名稱與存取權限許可，這麼一來，不只是為共用資料集的存取提供新的方法，針對共享S3資料桶存取方法的建立與維護，也能更為便利。

先前，用戶只能在單一資料桶的政策上，定義並管理各種應用場景，現在有了S3 Access Points，用戶可根據不同的應用程式與儲存規模來設定存取點。基本上，每個存取點都是採用不同的主機名稱，能讓用戶藉此建立與強制施行個別的存取許可，以及網路控制措施，而這邊所搭配的存取政策，可搭配前置字元標籤與物件標籤來實施不同的許可，因此，能以此限制使用者所能存取到的S3資料。

在物件資料存取設定上，S3用戶能將其他人或應用程式所能接觸到的範圍，局限在AWS虛擬私有網路（VPC）到防火牆之間，而這項功能當中提供的服務控管政策（Service Control Policies），也能用於確保所有S3存取點都處於限用的VPC當中。

雲端資料倉儲新增多項功能，提升延展性、查詢效能與降低操作難度

RedShift近期推出的服務項目，其實不只是年度用戶大會主題演講所提到的部份，在效能與延展性、簡易操作、資料湖整合等三大層面上，都有新的特色

針對資料庫類型的雲端應用需求，往年AWS發表的重點都是資料庫服務Aurora，今年很特別，主角換成資料庫倉儲服務RedShift，這套2012年問世的雲端服務，在Aurora問世之前，曾經是AWS成長速度最快的業務，今年終於換它獨領風騷。

AWS本次發表了幾項資料分析應用服務，其實都跟RedShift有關。首先，是名為RedShift RA3 with Managed Storage的執行個體正式推出，能讓用戶個別擴展執行個體的運算資源與儲存資源。而在這樣的擴充彈性之下，若相較於其他雲端資料倉儲，RA3的效能領先幅度可達到3倍。

AWS也公布採用這項服務的公司，像是語言學習平臺Duolingo、商家評論網站Yelp、儲存裝置廠商Western Digital，以及電信業者NTT DOCOMO、傳媒集團福斯公司（FOX Corporation）。

所謂的個別擴展，是指用戶可以根據資料倉儲的工作負載效能需求，來選擇執行個體的數量；而在儲存空間的費用上，也只需要支付目前用到AWS代管儲存的容量，目前在每一個RA3執行個體搭配的RedShift Managed Storage，使用的是大容量、高效能的固態硬碟，作為本機儲存空間，以及S3作為長期、高耐用度的儲存空間。如果執行個體當中的資料超過本機儲存的容量，RedShift Managed Storage會自動將資料卸載到S3，但不論資料位於本機儲存或S3，用戶僅需支付RedShift Managed Storage的費率，以及RA3的本機儲存容量費用。

另一方面，RA3執行個體本身是建構在AWS Nitro System之上，而具有相當高的網路頻寬（100 Gb/s），可進一步減少資料卸載至S3或從S3取回的時間。目前在執行個體的供應上，AWS本週已經開放租用16xlarge（ra3.16xlarge）的服務項目，可支援8PB壓縮資料的工作負載，到了2020年初，RA3將提供4xlarge的執行個體選擇。

接下來是與提升資料倉儲查詢效率有關的進階查詢加速器（Advanced Query Accelerator，AQUA），AWS將這項服務稱為AQUA for Amazon Redshift，預計在2020年中正式登場。

圖中是AQUA for Amazon Redshift的架構，能讓RedShift運用分散與硬體加速處理技術。用戶可將子查詢的提出與接收，以及查詢結果的過濾與匯聚，卸載到AQUA節點處理，毋須每次都連到S3來存取，因而能減少資料搬移作業，同時，又能支援平行處理與橫向擴展。

AQUA能夠為RedShift提供分散式的硬體加速快取，與其他雲端業者提供的資料倉儲服務相比，在查詢作業的效能上，改善幅度可達到10倍之多。目前已採用該項服務的企業，有財務軟體廠商Intuit，以及福斯公司。

之所以能夠提供如此大的效能提升，在於AQUA能將運算層帶到儲存層，因此用戶不需在兩者之間來回搬移，它是建在S3之上的高速快取架構，能夠橫向跨展多個節點，並且在這些節點之間進行平行的資料處理，而且每個節點都擁有一套硬體模組，當中採用了AWS設計的分析處理器，能夠大幅加速資料的壓縮、加密，以及過濾、匯聚等資料處理作業。相較於其他雲端資料倉儲存服務讓用戶直接查詢原始資料，這套架構可提供更快的資料查詢速度，以及更大的規模擴展能力，能讓用戶獲得即時反應效果更佳的儀表板，以及縮短開發時間、易於維護系統等功效。

此外，這套架構也相容於現行版本的RedShift，用戶可將既有的資料倉儲遷移過去，不需要修改程式碼。

另一個與資料倉儲相關的功能是聯邦查詢，稱為Redshift Federated Query，有了它，用戶分析資料的範圍將可同時橫跨多個AWS雲端服務，包括資料倉儲（RedShift）、物件儲存（S3），以及關聯式資料庫（RDS、Aurora）。以目前來看，AWS已經開始提供這項服務的預覽版本，而先行採用的企業則有福斯公司、網路安全公司Sophos。

基於這項服務，用戶可運用熟悉的SQL語法敘述，即能橫跨多種資料儲存來結合所有資料，進而簡化應用程式開發方式。有了聯邦查詢，RedShift查詢也能存取這些作業型的資料庫系統，提供更為即時與更新的資料，近來帶來更理想的分析與決策支援。當然，這樣的作法也對雲端資料倉儲的效能，帶來極大的挑戰，對此RedShift query Optimizer會進行智慧型的大規模分散式處理，以便服務底層的資料庫。

而在橫跨不同資料儲存的應用上，AWS本週也正式推出RedShift Data Lake Expert的服務，目前已宣布採用該項服務的企業是Warner Bros。

用戶可將RedShift資料直接匯出到S3，而這些數據所採用的形態，會是針對分析應用最佳化的開放資料格式Apache Parquet。如此一來，用戶能夠把他們在RedShift完成的查詢結果，以開放格式儲存到S3資料湖當中，接下來，就可以運用AWS其他服務，像是SageMaker、Athena、EMR，來進行後續的資料分析。綜觀現在市面上的雲端資料倉儲服務，AWS認為並無其他業者可提供如此簡便的方法，能讓用戶查詢資料的同時，又能將資料以開放格式回寫至資料湖。

針對NoSQL資料庫的應用，提供較低儲存成本與更多系統的選擇

強化對NoSQL資料庫的支援，也是AWS今年用戶大會在資料分析領域的發布重點。首先，是針對Amazon Elasticsearch Service，提供了暖儲存服務（Warm Storage Service），稱為UltraWarm，目前開放預覽版本試用。這項新的儲存層級，能為現行的Elasticsearch Service用戶，提供儲存成本減少9成的新選項，相較於其他代管式Elasticsearch服務提供的暖儲存，也有儲存成本減少8成的競爭優勢，因此，若要在雲端Elasticsearch服務保存大量的現行與歷史記錄資料，搭配AWS專為該項服務的暖儲存，在費用負擔上，都將更為輕鬆。目前宣布採用該項服務公司，主要是家庭族譜與基因檢測公司Ancestry。

在實際運作上，UltraWarm能針對經常存取的資料，提供分散式快取，這裡面運用了進階資料存放位置管理技術，能夠判斷較少存取的資料區塊，並將它們搬移到S3快取之外；而且，這項服務也採用高效能的EC2執行個體，以便於與存放在S3的資料進行互動。基於上述的架構，能促使UltraWarm的查詢速度比其他暖儲存解決方案快上50％，同時，用戶在面對所有記錄資料時，還能保有相同的互動式分析體驗。

以目前AWS公布的規格來看，有了UltraWarm，用戶在單一Elasticsearch Service的叢集之中，最多可管理3PB的記錄資料，並且能夠橫跨多個叢集進行查詢，因此，可以更有效地保存現行與過往記錄資料，便於互動式作業型分析與圖表式呈現結果──在使用體驗上，用戶可以透過Kibana這套軟體提供使用者介面，輕鬆查詢與呈現近期與長期的作業資料，因此，不論是開發人員、DevOps工程師、資安專家，均可更簡便地使用AWS Elasticsearch Service，分析短期與長期的作業資料，而不需大費周章，從S3或Glacier存放的歸檔資料當中，將資料復原到Elasticsearch叢集當中，轉為主動、可搜尋的狀態，才能開始著手查詢，這一來一往之間，可能就要好幾天的功夫。

除了Elasticsearch的應用，AWS今年還推出另一套關於Apache Cassandra資料庫的完全代管服務，稱為Amazon Managed Apache Cassandra Service（MCS）。在這套雲端服務之中，開發人員可以繼續沿用與Apache Cassandra相同的程式碼（相容於Cassandra 3.11）、符合Apache 2.0授權的驅動程式，以及現今所用的工具，以便執行、管理與擴展Cassandra資料庫的工作負載，而且，用戶可省去維護資料庫系統底層IT基礎架構的負擔。

站穩關聯式資料庫雲端服務的腳步之後，AWS繼續推出各種專屬用途資料庫服務，強調用戶應該要能自由選擇所要搭配的資料庫，而今年他們新發布的資料庫服務，稱為Amazon Managed Apache Cassandra Service（圖中最右側），在AWS的代管下，讓企業也能輕鬆使用Cassandra這套NoSQL資料庫。

目前有哪些企業可能有意採用對這項服務？AWS列出了幾家公司，像是速食業者麥當勞，以及軟體廠商Adobe、Pegasystems、Reltio。

在實際運作上，由於這套資料庫代管服務本身採用無伺服器（Serverless）的架構，所以用戶毋須自行建立、設定與操作大型Cassandra叢集環境──因此，當資料庫流量規模變大或縮小時，用戶不必手動增減節點，以及針對多個資料庫分割區執行重新平衡的處理。

關於服務的效能保證，也是MCS的賣點之一，不論任何大小的執行規模，AWS提供給用戶的性能水準是低於10毫秒的延遲，系統會根據應用程式實際的流量，自動擴張或縮小資料表的規模，並以虛擬的方式提供無上限的網路吞吐量與儲存容量。

MCS這套服務的計費方式，未來也會擴增更多選項。以目前AWS提供的選擇而言，會隨用戶所需的服務容量而計價（on-demand capacity mode）──用戶僅支付應用程式使用的資源。到了2020年初，這套資料庫代管服務將提供預先配置容量（provisioned capacity）的選擇，讓用戶指定每個工作負載所需的服務容量，以便控管相關費用支出。

若是用戶在自建IT環境或AWS的EC2雲端服務，已有正在使用的Cassandra資料表，屆時也可以透過AWS移轉工具，搬遷到MCS。

相關報導 AWS 2020雲端大戰略

熱門新聞