Kubernetes社群成立檢查點與還原(Checkpoint/Restore)工作組,推進檢查點與還原能力與Kubernetes的整合,並作為Kubernetes貢獻者與CRIU(Checkpoint/Restore In Userspace)社群討論需求的協作平臺。官方在公告中點出多個將優先被帶進討論的方向,包含互動式工作負載的資源使用最佳化、縮短長初始化應用的啟動時間、長時間工作負載的容錯,以及中斷感知排程(Interruption-aware Scheduling)與跨節點搬遷。

檢查點與還原是在程序或容器仍在執行時,先保存一份可恢復的執行狀態,必要時再從保存點接續運作。以快啟動為例,公告提到Java應用與大型語言模型推論服務等情境,在啟動階段需要較長的初始化,要是能在初始化完成後建立檢查點,之後擴展或重啟就有機會從接近就緒的狀態直接開始,降低等待時間與資源浪費。

可搶占排程的情境,是讓排程更能處理中斷。在資源緊張時,叢集可能需要讓出資源給較高優先級Pod,而較低優先級Pod只能透過重新啟動回到可用狀態,工作組提出的方向是中斷感知排程搭配透明的檢查點與還原,讓較低優先級Pod在被搶占前先保存執行狀態,待資源允許後再還原繼續執行,讓搶占帶來的中斷成本更可預期。

至於Pod搬遷,公告中提到因為負載平衡與節點維護的需求,過去搬遷常伴隨重啟或短暫中斷,對互動式工作負載不友善,工作組希望透過檢查點保存運行狀態,並在另一個節點完成還原並接續運行,讓跨節點搬遷在不干擾工作負載的前提下更可行,也讓叢集維運與資源調度更有彈性。

至於Pod搬遷,公告列出的情境之一是因負載平衡與節點維護而需要跨節點重新安排Pod。若以重建或重啟的方式重新安排,對互動式工作負載可能造成中斷。工作組希望透過檢查點保存運行狀態,並在另一個節點完成還原後接續運行,讓跨節點搬遷在不干擾工作負載的前提下更可行,也讓叢集維運與資源調度更有彈性。

除以上三項重點,工作組也把周期性檢查點列為容錯手段,對分散式模型訓練等長時間工作負載,可在失效後回到最近保存點,減少重算成本。同時也提出鑑識用檢查點,強調在網路攻擊、資料外洩或未授權存取等資安事件發生後,保存當下狀態以便後續分析。

熱門新聞

Advertisement