Google雲端釋出可以連接Apache Hive與BigQuery的連接器,使得Hive工作負載現在也可以讀取和寫入BigQuery與BigLake表格,也就是說,Hive-BigQuery連接器提供了另一個Hive搬遷到BigQuery的解決方案,即便用戶已經將資料搬遷到BigQuery或BigLake,仍然可以利用HiveQL方言和Hive執行引擎執行查詢。
Apache Hive是一個開源的分散式資料倉儲系統,用於處理儲存在Hadoop中的結構化資料,開發人員不需要了解和編寫複雜的MapReduce任務,可以使用類似SQL語言的HiveQL查詢資料。而之所以Google要開發Hive-BigQuery連接器,是因為部分用戶在搬遷Hive到BigQuery資料倉儲時遭遇障礙,而Hive-BigQuery連接器則可提供更靈活的搬遷選擇。
Hive-BigQuery連接器實作了Hive StorageHandler API,可整合Hive工作負載和BigQuery、BigLake表格,Hive的執行引擎會處理聚合和合併等資料操作,而與BigQuery的資料層的所有互動,則是由連接器管理。
Google提到,Hive原本就是熱門的開源資料倉儲之一,過去使用本地HDFS當作專有資料儲存層,而現在逐漸發展到了雲端儲存服務。這個新的連接器,可以將Hive和原生雲端儲存BigQuery整合在一起,進而簡化搬遷工作。
利用Hive-BigQuery連接器,用戶可以在批次搬遷的過程,維持操作的連續性。在過程中,原始的Hive查詢能夠透過連接器存取資料,而用戶也可以逐漸轉換使用BigQuery的SQL方言,待轉換完成後,用戶便可以完全停用Hive。
此外,用戶還可以同時使用Hive和BigQuery,主要以Hive處理工作負載,並僅將BigQuery用於特定任務,或是也可以繼續使用Hive,並且在雲端儲存採用Avro、Parquet或ORC等開源軟體格式,用戶可以使用Hive的SQL方言執行和處理查詢,以連接器使用BigLake和BigQuery的特有功能,像是快取查詢效能的後設資料、應用欄級存取控制,甚至是資料遺失防護(DLP)等安全和治理功能。
熱門新聞
2024-12-03
2024-11-29
2024-12-02
2024-11-20
2024-12-02