Confluent宣布即將在自家雲端平臺加入新功能,在其Apache Kafka服務推出無限資料留存功能,現行Confluent所提供的Kafka單位(Confluent Unit for Kafka,CKU)具有資料儲存限制,但在之後,無論是標準叢集和專用叢集,資料都將沒有儲存限制。在AWS上的Confluent Cloud服務可以在7月優先獲得這項功能,其他雲端平臺還需要再等等。

Kafka是由LinkedIn開發,並於2011年開源釋出的分散式串流平臺,在2014年時,LinkedIn員工離職創立了Confluent,提供企業級的Kafka服務。Apache Kafka可統一、高吞吐量且低延遲地處理即時資料,因此被企業廣泛地用來儲存應用程式的事件資料。

Kafka叢集會儲存自生產者(Producer)程式而來的資料,資料會被以不同的分割區和主題儲存,需要資料的消費者(Consumer)程式,便可從叢集的分割區查詢資料,Kafka可以在一臺或是多臺伺服器叢集上運作,而且分割區還能夠分散在跨叢集節點上。

典型Kafka的設定是將資料留存數天到數周,但隨著企業對於數位資料的需求,歷史資料需要留存的時間也就越來越長。Confluent提到,由於現在數位體驗對個人化的需求特別高,而企業為了要建構這些應用程式,需要以歷史資料來預測即時事件,在考量龐大即時資料的儲存成本以及使用複雜度,這對於現在的資料基礎結構來說並不容易,事件資料通常在Kafka中保存7天,而這限制了事件串流資料的使用情境,沒有足夠久的歷史資料,就無法進行逐年分析和預測性機器學習應用。

因此Confluent在其雲端Kafka服務,提供新的資料無限留存功能來解決這個問題,使企業可以建立資料中樞系統,連結內部所有的系統、SaaS以及微服務等端點,將資料全部儲存到中樞系統中,Kafka中的事件資料會成為其他系統的單一事實來源,具擴展能力同時還可確保資料的完整性。

Confluent提到,因為在Kafka中,運算和儲存能力被緊密地綁在一起,所以難以在流量上升時靈活地擴展,因此就無法大量地留存資料,而Confluent Cloud新提供的無限留存功能,使運算和儲存容量脫鉤,還能自動進行擴展,儲存可隨流量上升而擴展。在沒有儲存限制的情況下,企業就能將歷史事件串流資料,應用到更多的案例上。

Confluent Cloud隔離新舊資料的讀取,當應用程式讀取歷史資料時,不會影響其他讀取新資料的應用程式,讓叢集中的即時和歷史分析能夠並存。

AWS上的Confluent Cloud用戶在7月就可以開始使用資料無限留存功能,無限留存提供彈性可擴展的儲存,Confluent提到,企業不用為預先配置的儲存容量付費,僅就儲存的資料量支付費用。使用其他雲端服務供應商的Confluent Cloud用戶,在今年稍晚時候也將能使用新功能。


Advertisement

更多 iThome相關內容