Google在Dataproc加入了完整的開源分散式SQL查詢引擎Presto元件支援,不只整合無伺服器資料倉儲服務BigQuery,也可以讓Dataproc方便地進行整合測試。Dataproc是Google的雲端原生Apache Spark和Hadoop叢集服務,使用者可在Dataproc中快速啟動和停止叢集運算工作。

Presto可對多種類型資料來源執行互動式分析查詢,因此可跨本地端系統以及其他雲端平臺等多個資料來源,執行資料分析,而使用者也可跨大規模Dataproc執行個體以及多個來源,包括HDFS、Cloud Storage、MySQL、Cassandra以及Kafka,執行聯合查詢。

Google依照Presto社群建議調校了JVM,使Presto元件具有更好的垃圾回收以及記憶體分配屬性;並且和BigQuery整合,在預設情況下,現在BigQuery連接器可讓Presto查詢儲存在BigQuery中的資料,並從不同系統諸如BigQuery和Hive關聯資料,該功能是透過BigQuery Storage API,從表格讀取資料達成。

使用者還可以將像是Hive等外部元儲存,添加到叢集配置中,以追蹤Presto目錄,Google新上線的Dataproc全託管元儲存服務Metastore,可讓使用者從多個Dataproc叢集收集Presto元資料。另外,Presto現在也整合進Cloud Monitoring和Cloud Logging,可以方便使用者追蹤Presto任務的狀態,Google提到,雖然預設Presto工作資訊不會顯示在叢集監控頁面中,但是使用者可以使用Cloud Monitoring創建儀表板以及指標管理員。


Advertisement

更多 iThome相關內容