
Meta開源OpenZL這套格式感知的無失真壓縮框架,主打在結構化資料上同時提升壓縮比與處理速度,並以通用解壓縮器(Universal Decoder)執行每個檔案內嵌的還原流程,支援多種結構化資料型態,避免需要為不同格式維護多個二進位檔,其定位為提供一個客製化壓縮效能與單一可維護二進位檔的折衷方案。
OpenZL開發團隊指出,對需要在資料工作管線中長期維運的團隊,單一解壓縮器的操作一致性與集中化稽核,是相對務實的工程考量。
OpenZL的作法是先說清楚資料結構,再用能還原的步驟把規律整理出來,最後才壓縮。不同檔案可以有不同的壓縮流程,但每個檔案在壓縮時,都會把實際要怎麼解壓縮的流程寫進檔案裡。解壓縮器只要讀出這段流程並照做就能還原,不需要另外安裝或協調其他工具。
官方以Silesia資料集中的sao檔在M1 CPU與clang-17環境測試,OpenZL壓縮後大小3,516,649 B,壓縮比2.06,壓縮速度約340 MB/s,解壓速度約1,200 MB/s;同場比較zstd-3為5,531,935 B、壓縮比1.31、壓縮速度約220 MB/s、解壓速度約850 MB/s,xz-9的數字則為4,414,351 B、1.64、3.5 MB/s、45 MB/s。此結果顯示在已知結構的資料上,OpenZL可同時拉高壓縮比並維持甚至提升速度。
OpenZL提供簡單資料定義語言(SDDL)與離線訓練器,使用者可先用預設或SDDL描述欄位與巢狀結構,也可自行撰寫解析器(Parser)。訓練器依樣本資料在轉換與參數中搜尋,產生多種速度與壓縮比的計畫,編碼時把計畫解析成可執行圖並寫入每幀(Frame),遇到控制點會依輕量統計自動選分支並記錄。解壓一律使用同一通用解壓器,維運與效能優化集中處理,更新一次即可同時支援新舊資料。
官方針對不同型態資料提供了基準,包括欄式數值資料、Parquet與CSV等。值得注意的是,CSV的解析成本較高,測得壓縮速度上限約64 MB/s。另外,要是OpenZL遇到無法理解結構的輸入,框架會退回zstd以維持相容性,顯示其優勢明確鎖定在結構化資料情境。
對雲端儲存、分散式處理、機器學習張量、資料庫表格等具有明確結構的工作負載,OpenZL框架提供以結構為先的高效壓縮與解壓方案。OpenZL原始碼、文件與教學已於GitHub開放,專案目前持續開發,API與格式仍可能調整。
熱門新聞
2025-12-02
2025-12-01
2025-12-01
2025-12-04
2025-12-01
2025-11-30