圖片來源: 

AWS

AWS推出自動萃取文件內容服務Textract,利用機器學習技術搭配光學字元辨識(OCR)技術,在表格和資料表等文件中,自動萃取文字和資料,像是名稱、編號等,過程中不需要經由人工審核或是制定特定的資料格式,也不需要具備機器學習的經驗,萃取出的文字能夠被用在打造智慧搜尋,協助企業在龐大的文件中找到相關的內容,也可以將這些資料儲存在資料庫中,輔助其他應用,像是會計、查帳等應用,目前在美國東部和西部地區、歐洲已推出,預計在明天擴展到其他地區。

AWS的Textract服務以API的方式提供,使得企業不需要具有ML的技術背景,就能使用,Textract API支援多種圖像格式,包含掃描檔、PDF、照片,企業還可以在資料庫和分析服務中使用該API,包含AWS的Elasticsearch服務、DynamoDB、Athena,還有其他機器學習服務,像是理解服務Comprehend、醫療資訊理解服務Comprehend Medical、翻譯服務Translate、ML自動建置和部署工具SageMaker。

AWS指出,許多企業現在是透過手動的方式或是基本的OCR技術,將文件中的資訊擷取出來,不管是處理費用報告、合約、基金說明書、稅務文件、醫院患者資訊等文件,都需要耗費許多時間,萃取出來的結果需要經過額外的處理,才能變成其他應用可用的格式,且通常過程中還不準確,Textract利用機器學習,加上改良過的OCR技術,設計用來讀取所有不同格式的文件資料,在幾小時內正確的讀取數百萬頁的文件。

 


Advertisement

更多 iThome相關內容