Fujitsu系列產品內附的Scansnap organizer軟體,可以直覺地管理掃描後的文件,並且能夠編輯關鍵字索 引,以及方便地預覽JPEG與PDF檔的縮圖。

圖片來源: 

iThome

藉由掃描器將文件數位化,我們還應注意後續的數位文件管理,掃描器通常也會提供管理軟體,協助數位化資訊的管理。此外,掃描內容要能夠更有效地被運用,我們可以直接在掃描時,將檔案儲存成可以被搜尋內容的PDF檔,當我們想要找某個題材時,只要以關鍵字搜尋的方式,就能找到我們要的文件。

技巧1 利用掃描器內附的軟體,協助文件管理

將文件掃描成PDF檔後,有時你也需要在電腦前檢視一下掃描結果,例如掃描時有一頁順序反了。我們可以利用購買掃描器時所附的軟體,來核對這些文件,並輕易地來編輯這些文件。雖然掃描器提供了許多輔助功能,讓我們能夠掃描的更順利,但機器不是人,有時可能是自己的粗心,有時則可能是機器沒有判斷正確,有了軟體的協助,讓我們可以不用再花時間去掃描。

文件變成電子檔也是需要被管理的,才能更容易的找到所要的資料,搜尋資料時也能將範圍縮小,只要搜尋這個資料夾中的PDF文件,就能夠找到所要的資料。透過隨機所附的文件管理軟體,我們能夠很方便的做到這點。比如說,我們在Windows檔案總管瀏覽PDF文件時,我們只有在點到該文件時才能夠預覽,而這些隨機所附的文件管理軟體,能夠直接預覽資料夾中所有PDF文件的縮圖,在管理上,我們也能夠很快的將掃描好的文件,以拖曳的方式歸類到合適的資料夾中,相當方便。

像是Fujitsu ScanSnap系列,內附的ScanSnap Organizer管理軟體,能夠完整與掃描器結合運作。只要設定文件在掃描後,直接由此軟體開啟,並在資料夾中,直接以縮圖檢視PDF文件中的每個頁面。很特別的是,只要在黑白文件上用螢光筆圈起一段文字,掃描時便能夠自動建立關鍵字索引,顯現於ScanSnap Organizer的縮圖中。

精益科技SmartOffice P286 Plus則內附力新國際的全能影像經理軟體,這款文件處理軟體,在瀏覽縮圖方面,能夠支援多樣的檔案格式,像是PDF檔、Office檔,與各式圖檔。在文件處理上,能利用應用程式工具列,迅速處理檔案,或是轉換檔案。

而Canon DR-3010並未內附相關管理程式,其搭配的imageWARE Desktop和eCopy Desktop軟體,也都是在強調搭配文件管理軟體的應用方式,不過這2套軟體需以選購的方式另外購買。

綜合來說,文件管理應用可能需要大量的經費與人力,而個人文件數位化規模較小,要比企業應用簡單的多,我們能夠利用一些管理竅門與軟體,讓我們能夠有效的管理文件。

此外,在文件掃描的同時,也可能影響到數位化後的管理工作,所以,在掃描設定時,我們也能事先設定好儲存的位置與檔案命名方式,讓後續管理工作能夠更方便地進行,但是,藉由更專門的管理軟體,能夠以較直覺的方式,可以更進一步地去管理這些文件。畢竟,電腦雖然功能強大,也要經過管理,才能夠更有效地被運用。

技巧2 整合OCR辨識功能,讓文件不只是圖像

許多掃描器都具有光學文字辨識(OCR)的能力,為了讓數位化流程更容易,現在,利用掃描器的功能直接產出「可搜尋的PDF」檔,便能將原本的紙本文件更有效的被利用。

我們在掃描器設定上,選擇將檔案存成「可搜尋的PDF」時,通常也需要設定OCR的語言。像是中文紙本選擇中文語言辨識,英文紙本使用英文來辨識,基本上來說,目前中文的辨識能力比以往好很多,畢竟中文字形比其他拼音文字的語言,在辨識難度上較高。越高的辨識率,代表我們更容易找到文章的內容,要利用這些文字時,也只需要修改較少的地方。

我們試著掃描出一份中文「可搜尋的PDF」檔,在PDF上我們能夠精準的呈現原稿內容,我們試著選取其中的文字,複製並貼在記事本中,以檢驗中文的辨識率,雖然不能夠百分之百全部正確,但也能夠相當接近。

不過要注意的是,目前掃描器上內建的OCR功能,一次以辨識一種語言為主,在我們的使用環境中,以使用正體中文辨識居多,在辨識時,雖然能夠處理中、英文兩種語言,但英文的辨識上可能會較差,可能會發生半形字母變成全形字母,「y」會變成「γ」等情況。但如果設定以英文OCR來辨識文件,英文部分幾乎不會有什麼問題,但其中的中文字則無法辨識。

所以在建立「可搜尋的PDF」檔案時,要特別的注意,或是掃描之後再做檢查的動作。在設定時,可以針對中英文來分別設定不同的掃描工作,文件圖像較複雜或是不清楚,我們也可以設定較高的解析度,或是開啟其他特殊輔助功能,像是去除背景色,過濾顏色等方式,來加強文字的辨識能力。

技巧3利用基本的軟體與系統,便能搜尋到掃描文件的內容

以往將文件掃描後,多是保存為影像檔,並無法做搜尋應用,而文件要搜尋應用前,可能需要花上不少的人力與時間,幫資料建立索引。現在,只要建立「可搜尋的PDF」文件,讓我們能夠方便地找到資料,只要搭配相關的配套軟體即可。

在資料檢索上,除了依資料夾分類去搜尋,或是利用上述管理軟體預設的尋找功能,例如可以透過簡易的Windows搜尋功能,或者是利用免費的Google Desktop軟體,在系統建立索引後,即可將使用者所需要的相關資料迅速呈現出來。

對於可搜尋的PDF文件,我們可以不用花費心力去記住檔案名稱與儲存位置,只要利用搜尋關鍵字的方式,便能找到所需要的資料,而且電子文件的呈現與紙本完全一致。例如我們能夠利用免費的PDF工具,像是Adobe Reader、Foxit reader、PDF-XChange等PDF瀏覽器,透過搜尋功能,來搜尋目前文件中,或是指定資料夾中PDF文件的內容,這樣的資料檢索方式,讓我們在知識文件管理上,更容易且方便。

總而言之,現在的數位化工作,我們能藉由掃描器在前端輔助我們的掃描動作,而不用花太多時間手動處理,配合軟體程式應用,可以加強文件管理上的應用,同時也能夠讓文件內容更有效率的被利用。

 

精益科技SmartOffice PS286 Plus附有全能影像經理軟體,這是一款文件處理軟體,能夠支援多樣的檔案格式瀏覽縮圖,像是PDF檔、Office檔,與各式圖檔。並提供應用程式工具列,以便迅速處理檔案。

 

在存檔設定時,我們也能設定初步的管理方式,像是選擇指定的儲存位置,並在檔案的命名上,以時間或者自訂命名的方式,讓檔案有條理。

 

使用各式PDF瀏覽器,便可以搜尋到PDF的文件內容,可針對單一文件或整個資料夾,進行內文搜索。

 

何謂Searchable PDF?

在之前提到一種可辨識的PDF檔案格式,這是強化文件數位化的一種方式。Searchable PDF通常稱之為「可搜尋的PDF」,簡單說,就是檔案內的文字能夠被搜尋的PDF檔。

一般常見的PDF檔案,大部分仍是圖像檔,而這種「可搜尋的PDF」檔案,仍具有PDF檔案的特性,能呈現原始文件的外貌及完整性,並且在任何作業系統及應用程式中易於檢視、列印或分享,其中的內容文字,也能夠較容易的被重複利用,這對於常需要處理龐大資訊的人來說,加強了文件的實用性與應用性。

我們可以將「可搜尋的PDF」格式看成2個部分:「圖像層」與「文字層」。前者呈現出紙本文檔的原始樣貌,而後者是依靠文字光學辨識(OCR)所產生,所以我們選取文字並複製後,可以發現貼出後的文字可能並不相同,而直接閱讀PDF文件時,則與原稿完全一致。

除了掃描器之外,目前市面上,少部分的複合機與事務機廠商也提供此功能,像是Canon、富士全錄、Ricoh所推出的數位複合機,但要注意的是,這些功能可能是選配的。或者,我們也能夠直接購買專業的製作軟體,例如:ABBYY FineReader、IRIS ReadIRIS或Adobe Acrobat等軟體,將文件製作成「可搜尋的PDF」。

 

文字辨識軟體比較表

 


相關報導請參考「隨手將紙本文件數位化的關鍵利器」

熱門新聞

Advertisement