Confluent提供Apache Kafka資料永久留存服務

Confluent宣布即將在自家雲端平臺加入新功能，在其Apache Kafka服務推出無限資料留存功能，現行Confluent所提供的Kafka單位（Confluent Unit for Kafka，CKU）具有資料儲存限制，但在之後，無論是標準叢集和專用叢集，資料都將沒有儲存限制。在AWS上的Confluent Cloud服務可以在7月優先獲得這項功能，其他雲端平臺還需要再等等。

Kafka是由LinkedIn開發，並於2011年開源釋出的分散式串流平臺，在2014年時，LinkedIn員工離職創立了Confluent，提供企業級的Kafka服務。Apache Kafka可統一、高吞吐量且低延遲地處理即時資料，因此被企業廣泛地用來儲存應用程式的事件資料。

Kafka叢集會儲存自生產者（Producer）程式而來的資料，資料會被以不同的分割區和主題儲存，需要資料的消費者（Consumer）程式，便可從叢集的分割區查詢資料，Kafka可以在一臺或是多臺伺服器叢集上運作，而且分割區還能夠分散在跨叢集節點上。

典型Kafka的設定是將資料留存數天到數周，但隨著企業對於數位資料的需求，歷史資料需要留存的時間也就越來越長。Confluent提到，由於現在數位體驗對個人化的需求特別高，而企業為了要建構這些應用程式，需要以歷史資料來預測即時事件，在考量龐大即時資料的儲存成本以及使用複雜度，這對於現在的資料基礎結構來說並不容易，事件資料通常在Kafka中保存7天，而這限制了事件串流資料的使用情境，沒有足夠久的歷史資料，就無法進行逐年分析和預測性機器學習應用。

因此Confluent在其雲端Kafka服務，提供新的資料無限留存功能來解決這個問題，使企業可以建立資料中樞系統，連結內部所有的系統、SaaS以及微服務等端點，將資料全部儲存到中樞系統中，Kafka中的事件資料會成為其他系統的單一事實來源，具擴展能力同時還可確保資料的完整性。

Confluent提到，因為在Kafka中，運算和儲存能力被緊密地綁在一起，所以難以在流量上升時靈活地擴展，因此就無法大量地留存資料，而Confluent Cloud新提供的無限留存功能，使運算和儲存容量脫鉤，還能自動進行擴展，儲存可隨流量上升而擴展。在沒有儲存限制的情況下，企業就能將歷史事件串流資料，應用到更多的案例上。

Confluent Cloud隔離新舊資料的讀取，當應用程式讀取歷史資料時，不會影響其他讀取新資料的應用程式，讓叢集中的即時和歷史分析能夠並存。

AWS上的Confluent Cloud用戶在7月就可以開始使用資料無限留存功能，無限留存提供彈性可擴展的儲存，Confluent提到，企業不用為預先配置的儲存容量付費，僅就儲存的資料量支付費用。使用其他雲端服務供應商的Confluent Cloud用戶，在今年稍晚時候也將能使用新功能。

熱門新聞