電子化的文件無論是編輯、複製都相當簡單,幾個步驟就能搞定,但反過來如果是文字密密麻麻的平面文件,可能就會讓會讓人輸入到傻眼,也直接浪費不少人力與時間上的成本。

力新國際推出的「丹青中英日文文件辨識系統」就是為解決平面文字電子化的的困擾。丹青支援正/簡體中文、日文以及英文文字辨識,能將文件資料自動轉換成可編輯的文字檔案,進而加速辨公室的自動化,幫助一般企業解決大量中/英/日文印刷文件輸入。

丹青文件辨識系統的好處,是讓企業以較低的成本,快速將文件電子化,建立專屬的文件資料庫,而不用額外雇請打字人員。

丹青文件辨識系統的工作原理是將原稿以OCR的方式預先掃描,接著以影像處理的概念進行編輯與校稿,之後系統會將文字與圖檔分離辨識與儲存,讓使用者可以執行列印或傳送。

丹青文件辨識系統支援多國語系使用者介面,系統會自動偵測,不過這個功能並不支援Windows 98/Me作業系統。在進行文字辨識前,使用者可預先選擇辨識字集、框選辨識區域、設定版面格式、執行版面分析以及指定校對詞庫等,提高系統辨識效率與作業時間。

程式的工作區域包含功能列表、功能圖示列、編輯工具盒、訊息狀態列、縮圖區以及原稿影像工作區。輸入後系統會自動辨識、分析文字與字體,不需要另外切換語系。由於辨識率不是百分之百正確,因此辨識後會預先做圖文校對,讓使用者挑候選字,同時也能提高文字辨識的學習率。

若要辨識整份文件,那麼在執行前不需要設定辨識區域;如果只是想辨識部分文件,那麼可先設定區塊進行版面分析。丹青文件辨識系統能辨識的範圍包括各式彩色、黑白、表格及非表格文件。為了邁入國際化腳步,丹青從早期版本僅能辨識的文字從正體/簡體中文、英文及阿拉伯數字,一直擴大到最新的日文辨識。

經過字庫的校對後,辨識的文字可轉存為TXT、RTF、DOC、XLS、SLK、CSV等各種檔案格式,或是匯入純文字文件、Word、Excel等文書處理軟體編輯。除此之外,系統支援以電子郵件直接傳送,或將檔案以HTML的方式透過網路瀏覽器開啟。

站在企業e化的角度,除了要提升工作效率外,對於資源的運用也需要重視,尤其現今強調無紙化辦公室環境下,大家都盡可能節省紙資源的浪費,不過目前許多資料仍擺脫不了印刷文件的運用,但是如何將加速平面資料數位化,避免重覆的投資浪費,那麼採用文件辨識系統不失為一個可行的解決方案。文⊙蔡明甫

熱門新聞

Advertisement