Adobe文件服務新推2大API，能自動擷取完整PDF結構輸出JSON檔方便整合Web，還能嵌入Word

Adobe Document Generation API，主要功能是將JSON格式資料，嵌入Microsoft Word文件內，來生成具動態資料的Word和PDF檔案。

圖片來源:

圖/Adobe

Adobe在文件服務（Adobe Document Services）中新增兩大API功能，分別是Adobe PDF Extract API與Adobe Document Generation API。前者能根據PDF內容的檔案結構，透過Adobe核心AI引擎Adobe Sensei擷取文字、表格資料、圖像等元素，並以JSON格式輸出；後者則可以將JSON格式資料，嵌入Microsoft Word文件內容中，來生成具動態資料的PDF檔案。

Adobe文件服務提供了一套SDK和Restful API，可供開發者打造各項PDF文件的應用，比如客製化的端到端協議（Agreement）、內容發布、資料分析工作流等任務。這套服務SDK可以在AWS Marketplace下載。

這次新增的兩大雲端API，一是Adobe PDF Extract API，透過AI分析PDF檔案的內文結構，從中提取包括文字、表格資料、圖像在內的所有PDF元素。文字擷取過程中，除了能依據內文格式辨識出標題、列表、註解等內容，還能理解文件中常見的跨欄、跨頁段落，依照閱讀順序擷取完整內容文字。這些從PDF檔中擷取的各種元素，例如文字、表格資料與圖片，可以輸出成網頁應用慣用的JSON格式，表格資料也可以選擇以CSV或XLSX來儲存，圖片則可選擇以PNG儲存，以便開發者可以輕易地儲存、分析與操作這些數據，並與其他的系統結合，比如資料庫、記錄系統（systems of record）、CRM、ERP等系統，或是用來開發NLP應用、RPA自動化流程、ML模型或進行數據分析等。

Adobe PDF Extract API的一大功能，就是能辨識出文件中的標題、段落、表格、粗體字等不同的內文編排，依據這些編排來擷取各類元素。

擷取出內文、表格、影像等元素後，則會以JSON、PNG、CSV等檔案儲存，以利後續與其他系統結合應用。

比如表格資料可以在直接擷取後，匯入其它系統進行資料分析與視覺化。

另一項Adobe Document Generation API，則是能讓開發者將JSON格式資料，嵌入Microsoft Word文件內容，來生成具動態資料的Word和PDF檔案。開發者在使用時，須先在Word外掛Adobe文件生成標籤功能（Adobe Document Generation Tagger），並上傳JSON資料，由系統將自動依據JSON資料模型生成標籤，或是自行建立可重複使用的標籤，以便後續在Word中動態加入標籤、影像、列表，或基於輸入資料與條件生成的客製化表格。

在文件中完成標籤與表格等元素的設定後，在生成PDF的過程中，系統將依據標籤將指定的JSON資料結合到文件，快速生成一份自定義的文件內容，而不需要手動輸入各類資料來建立一份文件。這項功能也已經與Adobe Sign整合，讓用戶可在文件中使用電子簽名。

Adobe在官網上也提供了多種常用文件範本，用戶可直接下載使用，也可上傳自己的Word與JSON檔來操作。這項功能常用於協議文件與合約的建立，包括銷售提議及合約、法律合約、NDA保密協議、員工聘用信函、法律信函與聲明等文件類型。

Adobe Document Generation API，主要功能是將JSON格式資料，嵌入Microsoft Word文件內，來生成具動態資料的Word和PDF檔案。

Demo的左邊是JSON資料的上傳處，右邊黃色螢光筆是添加到文件中的標籤，不同標籤代表要加入的不同資料類型，比如是產品名稱、產品價錢等，設定完成後生成PDF，過程中，系統就會依據標籤將指定的JSON資料，結合到文件中。

熱門新聞