推特最近把原本內部開發的Pub/Sub系統EventBus更換成Apache Kafka,除了在成本上,當有許多使用者都要轉推發文的情況下(資料處理上稱為fan-out),能節省高達75%的資源外,由於Kafka龐大社群的資源,修復錯誤和增加新功能更快,也更容易找到系統維護工程師人選。

Apache Kafka是一個開源分散式串流平臺,能以高吞吐量低延遲方式傳輸資料。Kafka的核心是基於日誌建構的Pub/Sub系統,具有可水平伸縮和容錯性,是用來打造即時新聞系統的理想選擇。但其實推特在幾年前就已經使用過Kafka,推特發現當時Kafka 0.7版本,有幾個不適合他們使用情境的缺點,主要是在追趕讀取(Catchup Reads)期間的I/O操作數限制,也欠缺耐久性和複製功能。

由於當時使用Kafka的這些限制,推特基於Apache DistributedLog,打造了自己的Pub/Sub系統EventBus,以應付推特快速發布突發新聞、對使用者提供相關廣告,以及其他即時使用案例的需求。

時至今日,硬體和Kafka專案在經過時間的發展,推特之前遇到的問題,都已經獲得解決。SSD的價格已經足夠低廉,有助於解決之前在HDD上遇到隨機讀取先前I/O的問題,而且伺服器NICs具有更大的頻寬,使得EventBus的分割服務和儲存層的好處消失。新版的Kafka現在還支援資料複製,提供推特需要的資料耐久性保證。推特表示,驅動他們把Pub/Sub系統從EventBus搬遷到Kafka上,主要是考量成本以及社群兩個原因。

在推特決定要搬遷Pub/Sub系統到Kafka之前,團隊花了數個月評估,他們在Kafka上運作相近於EventBus上的工作負載,包括耐久寫入、長尾讀取(Tailing reads)、追趕讀取以及高扇出讀取(High Hanout Reads),還有一些灰色故障的情境。從資料串流消費者讀取訊息的時間戳差異來衡量,無論吞吐量如何,Kafka的延遲都明顯較低,推特提到,這可以歸因成三個原因,第一個,由於在推特原本使用的EventBus,服務層和存儲層是分離的,因此產生額外的跳躍(Hop),而Kafka只用一個程序處理儲存和請求服務。

第二個原因,EventBus明顯地阻止對fsync()呼叫寫入,但是Kafka卻仰賴作業系統背景進行fsync()呼叫。第三個原因是,Kafka使用零複製(Zero-copy)。因此從成本的角度來看,EventBus需要服務層和存儲層的硬體,分別針對高網路吞吐量和硬碟進行最佳化,但Kafka只需要使用單一主機,推特提到,顯然EventBus需要更多的機器才能達到和Kafka相同的工作負載。

單一資料串流消費者的使用案例,Kafka可以節省68%的資源,當有多個使用者發文並轉推給他們所有友人時的fan-out情況下,推特估計,則能節省高達75%的資源。推特表示,由於他們使用案例fan-out效應不夠極端,在實作中不值得分離服務層,特別是考慮到現代硬體上的可用頻寬,否則在理論上EventBus應該更有效率。

除了成本上的考量,Kafka龐大的支援社群也是一大優勢。在推特中,維護EventBus系統的只有8名工程師,但是Kafka專案現在卻有數百人進行維護,幫忙修復錯誤和增加新功能。推特預計在EventBus增加的新功能,像是串流函式庫、至少一次HDFS工作管線以及一次性處理都已經在Kafka中具備了。

此外,在客戶端或是伺服器發生問題時,開發人員可以參考其他團隊的經驗,快速的解決問題,而且也因為Kafka是一個熱門專案,因此了解Kafka的工程師數量也比較多,方便招聘系統工程師。在接下來的幾個月內,推特計畫開始把使用者從EventBus遷移到Kafka上,以降低營運成本,並且讓使用者獲得Kafka提供的其他功能。

熱門新聞

Advertisement