Apache Flink 2.1加入AI模型管理與即時推論功能，升級資料串流處理能力

Apache Flink 2.1支援以SQL語法註冊並設定連接OpenAI雲端服務的人工智慧模型，開發者可直接在串流資料管線中呼叫ML_PREDICT函式，實現即時資料推論

開源串流處理框架Apache Flink官方正式發表2.1版，此次更新強化人工智慧與資料流整合能力，並進一步提升串流處理平臺的技術深度與彈性。新版本由全球116名貢獻者協力完成，共實作16項FLIP，修正超過220個議題，這反映出Flink社群的穩定發展與活躍。

Flink 2.1最重要的技術升級，是於資料流平臺中直接納入人工智慧模型管理機制。新版允許開發者透過Flink SQL及Table API定義與維護人工智慧模型，支援以程式碼或SQL指令方式註冊、設定並呼叫模型，減少跨平臺整合的技術障礙，例如企業可將OpenAI等主流模型服務註冊於Flink執行環境，將即時資料串流導入人工智慧推論，即時整合資料取得與推論。

在即時推論功能上，Flink 2.1進一步擴充ML_PREDICT表格數值函式，讓開發者能於SQL查詢階段，直接呼叫人工智慧模型對串流資料進行推論。此設計降低了將資料流接入外部推論服務的複雜度，並可根據不同資料來源與應用場景進行彈性設定，提升串流處理架構下，人工智慧應用的即時性與可維運性。

此次更新針對半結構化資料處理需求，加入VARIANT型別，允許系統以更靈活方式儲存及查詢JSON等多層結構資料，並透過PARSE_JSON函式實現字串至VARIANT的轉換。對於需支援湖倉架構如Apache Paimon的開發者而言，該設計有助於降低異質資料整合的技術門檻。

此外，Flink 2.1開放於CREATE TABLE DDL階段宣告自訂結構型別，簡化資料表與業務物件間的型別映射過程。Process Table Function（PTF）也於本次正式納入，開發者可依據業務邏輯設計自訂函式，利用Flink內建狀態管理、事件時間與計時器等機制，增強SQL在串流處理領域的應用範圍。

針對大規模串流處理實務場景，Flink 2.1在JOIN機制進行多項最佳化。DeltaJoin設計有效減少狀態數量，有助於改善檢查點延遲與系統資源消耗。StreamingMultiJoinOperator則可將多個連續JOIN合併執行，降低中介狀態儲存需求，進一步提升整體處理效能。

非同步Lookup Join最佳化後，可於允許無序輸出模式下提升資料流吞吐量。對於採用部分更新寫入的資料湖場景，新版規畫Sink Reuse自動合併相同欄位目標的INSERT INTO操作，簡化維運工作。

熱門新聞