AWS正式推出自動萃取文件內容服務Textract

圖片來源:

AWS

AWS推出自動萃取文件內容服務Textract，利用機器學習技術搭配光學字元辨識（OCR）技術，在表格和資料表等文件中，自動萃取文字和資料，像是名稱、編號等，過程中不需要經由人工審核或是制定特定的資料格式，也不需要具備機器學習的經驗，萃取出的文字能夠被用在打造智慧搜尋，協助企業在龐大的文件中找到相關的內容，也可以將這些資料儲存在資料庫中，輔助其他應用，像是會計、查帳等應用，目前在美國東部和西部地區、歐洲已推出，預計在明天擴展到其他地區。

AWS的Textract服務以API的方式提供，使得企業不需要具有ML的技術背景，就能使用，Textract API支援多種圖像格式，包含掃描檔、PDF、照片，企業還可以在資料庫和分析服務中使用該API，包含AWS的Elasticsearch服務、DynamoDB、Athena，還有其他機器學習服務，像是理解服務Comprehend、醫療資訊理解服務Comprehend Medical、翻譯服務Translate、ML自動建置和部署工具SageMaker。

AWS指出，許多企業現在是透過手動的方式或是基本的OCR技術，將文件中的資訊擷取出來，不管是處理費用報告、合約、基金說明書、稅務文件、醫院患者資訊等文件，都需要耗費許多時間，萃取出來的結果需要經過額外的處理，才能變成其他應用可用的格式，且通常過程中還不準確，Textract利用機器學習，加上改良過的OCR技術，設計用來讀取所有不同格式的文件資料，在幾小時內正確的讀取數百萬頁的文件。

熱門新聞