
IBM發布Granite-Docling-258M小型模型,定位為端到端文件轉換的視覺語言模型,採Apache 2.0授權開源並已上架Hugging Face。官方強調這是一個針對文件轉換而生的小型模型,參數量2.58億,輸出可完整保留版面、表格、數學式、清單與程式碼區塊等結構,適合後續以RAG建立可檢索的資料資產。與傳統直接轉為Markdown,容易與來源內容脫鉤的OCR流程相比,Granite-Docling的結構化輸出更貼近原始文件,降低後處理不確定性。
Granite-Docling模型與Docling函式庫是互補關係。Docling提供可組合的文件轉換軟體層,能串接表格解析、數學式與程式碼解析、ASR與OCR等專用模型與CLI工具,方便隨插即用地整合向量資料庫與代理式工作流程。而Granite-Docling模型則可作為其中的單一VLM節點,一次完成影像到結構化輸出,利用單一步驟轉換減少多階段工作管線的誤差累積,同時保有以Docling進行錯誤處理與客製化的彈性。
Granite-Docling的核心是DocTags,這是一套由IBM Research設計的通用文件結構標記語言,能精確描述頁面元素的型別、座標、閱讀順序與跨元素關聯,例如圖與其說明的對應關係。由於DocTags將內容與版面結構明確分離,模型可先界定元素範圍再執行OCR,待完成轉換後,DocTags可直接轉為Markdown、JSON或HTML,或送入Docling函式庫的處理流程。
此次發表被視為今年3月SmolDocling-256M-preview的產品演進,新模型以Granite3為語言骨幹並採用SigLIP2視覺編碼器,延續先前方法論同時提升穩定性。過去預覽版偶見在頁面局部出現相同Token反覆出現的情形,團隊此次透過資料集過濾與標註清理降低不一致樣本,目標是在大量文件處理情境中維持流程穩定而不被單點錯誤拖累。
在語言能力方面,Granite-Docling提供對阿拉伯文、中文與日文等的實驗性支援,目前尚未標示為企業等級的穩定水準,後續將持續擴充語言覆蓋與可靠性。IBM也同步推進docling-eval評測套件與資料集策畫,規畫建立標準化排行榜,以利各類文件理解方案比較。
IBM計畫發展更大參數等級的Granite-Docling模型版本,但會維持在10億參數以下以兼顧速度與硬體彈性,並提升DocTags與IBM watsonx.ai模型的相容性,之後也會將DocTags語彙納入Granite的分詞器(Tokenizer)與訓練配方。
熱門新聞
2025-12-02
2025-12-01
2025-11-30
2025-12-01
2025-12-01