圖/Adobe
Adobe在文件服務(Adobe Document Services)中新增兩大API功能,分別是Adobe PDF Extract API與Adobe Document Generation API。前者能根據PDF內容的檔案結構,透過Adobe核心AI引擎Adobe Sensei擷取文字、表格資料、圖像等元素,並以JSON格式輸出;後者則可以將JSON格式資料,嵌入Microsoft Word文件內容中,來生成具動態資料的PDF檔案。
Adobe文件服務提供了一套SDK和Restful API,可供開發者打造各項PDF文件的應用,比如客製化的端到端協議(Agreement)、內容發布、資料分析工作流等任務。這套服務SDK可以在AWS Marketplace下載。
這次新增的兩大雲端API,一是Adobe PDF Extract API,透過AI分析PDF檔案的內文結構,從中提取包括文字、表格資料、圖像在內的所有PDF元素。文字擷取過程中,除了能依據內文格式辨識出標題、列表、註解等內容,還能理解文件中常見的跨欄、跨頁段落,依照閱讀順序擷取完整內容文字。這些從PDF檔中擷取的各種元素,例如文字、表格資料與圖片,可以輸出成網頁應用慣用的JSON格式,表格資料也可以選擇以CSV或XLSX來儲存,圖片則可選擇以PNG儲存,以便開發者可以輕易地儲存、分析與操作這些數據,並與其他的系統結合,比如資料庫、記錄系統(systems of record)、CRM、ERP等系統,或是用來開發NLP應用、RPA自動化流程、ML模型或進行數據分析等。
Adobe PDF Extract API的一大功能,就是能辨識出文件中的標題、段落、表格、粗體字等不同的內文編排,依據這些編排來擷取各類元素。
擷取出內文、表格、影像等元素後,則會以JSON、PNG、CSV等檔案儲存,以利後續與其他系統結合應用。
比如表格資料可以在直接擷取後,匯入其它系統進行資料分析與視覺化。
另一項Adobe Document Generation API,則是能讓開發者將JSON格式資料,嵌入Microsoft Word文件內容,來生成具動態資料的Word和PDF檔案。開發者在使用時,須先在Word外掛Adobe文件生成標籤功能(Adobe Document Generation Tagger),並上傳JSON資料,由系統將自動依據JSON資料模型生成標籤,或是自行建立可重複使用的標籤,以便後續在Word中動態加入標籤、影像、列表,或基於輸入資料與條件生成的客製化表格。
在文件中完成標籤與表格等元素的設定後,在生成PDF的過程中,系統將依據標籤將指定的JSON資料結合到文件,快速生成一份自定義的文件內容,而不需要手動輸入各類資料來建立一份文件。這項功能也已經與Adobe Sign整合,讓用戶可在文件中使用電子簽名。
Adobe在官網上也提供了多種常用文件範本,用戶可直接下載使用,也可上傳自己的Word與JSON檔來操作。這項功能常用於協議文件與合約的建立,包括銷售提議及合約、法律合約、NDA保密協議、員工聘用信函、法律信函與聲明等文件類型。
Adobe Document Generation API,主要功能是將JSON格式資料,嵌入Microsoft Word文件內,來生成具動態資料的Word和PDF檔案。
Demo的左邊是JSON資料的上傳處,右邊黃色螢光筆是添加到文件中的標籤,不同標籤代表要加入的不同資料類型,比如是產品名稱、產品價錢等,設定完成後生成PDF,過程中,系統就會依據標籤將指定的JSON資料,結合到文件中。
熱門新聞
2024-10-05
2024-10-07
2024-10-07
2024-10-07
2024-10-07
2024-10-07
2024-10-07