由聯合報轉投資的聯合線上(udn.com)對網路事業的佈局轉趨積極,不但已有全球網路投資計畫,也斥資上億元的預算,著手進行將50年報紙內容、包括圖文的數位化工程,預計明年(2001年)2月推出付費資料庫網站─聯合知識庫(udndata.com)。

聯合線上營運長劉永平表示,udn的商業模式之一是資訊有價,而原始的新聞內容很難收費,因此聯合知識庫會朝向meta content的經營,也就是將現有的新聞資料經過組織整理,輔以人工智慧的技術,使這些內容能有意義地被呈現,帶給使用者附加價值。

他舉例,使用者想搜尋八七水災的新聞,如果只找到八七水災死了多少人,這樣的資訊其實價值不大,但是如果可以查詢到歷年來風災水災各傷亡多少人,資訊就有價,可供研究使用。以OCR技術進行數位化工程

目前聯合知識庫已由聯合線上資訊部負責規劃執行,該部門經理何銘傑表示,將報紙內容數位化的計畫已進行快1年,目前仍處於系統開發階段。

這項工程在技術上相當艱難,因為報紙跨越的年代非常久遠,20年前的報紙是以鉛字排版,紙張品質也不像現在,而聯合線上是以光學辨識技術(OCR),以圖文切割方式,將報紙版面上的內容掃瞄,之後再以人工進行校對、除錯。

另一項困難點則在於檢索技術,由於新聞資料量龐大,例如鍵入「陳水扁」,可能就出現上萬筆的資料,簡單的搜尋技術是無法讓使用者查詢到精確資料,更遑論要加上人工智慧的查詢。而目前聯合知識庫的技術是整合國內外許多的解決方案。預計耗時4年、花費上億元

而聯合線上預計斥資新台幣上億元的預算,花4年的時間將50年報紙的圖文數位化。

其實聯合報近年來已邁入電腦化作業,近幾年的新聞資料都有電腦檔案,但何銘傑指出,希望聯合知識庫裡頭的新聞資訊,政經新聞都是見報後的資料,因此除了聯合新聞網上線之後的新聞,不會直接將記者的原始檔案放入udndata中。
聯合知識庫將採收費經營

花費大筆金錢建置的udndata,也將採取收費經營,劉永平表示,智慧財產權應該受到尊重,屆時聯合知識庫除了免費的基本查詢,還會有付費的加值查詢服務。

熱門新聞

Advertisement