葉慶章
網擎資訊研發協理,歷任企業搜尋產品線研發工程師與部門主管,並負責臺灣、日本與中國搜尋產品線的技術支援與產品管理。目前負責該產品線的規畫與研發管理工作。



結構化資料(structured data)幾乎是關聯式資料的同意詞,然而,除了這些資料形態之外,企業還得面臨管理數量大幅膨脹的「非結構化資料(Unstructured data)」的問題。

最典型的例子,莫過於散落各地的文件檔。此外,隨著網際網路的興起,電子郵件與多媒體檔案的交換也日漸頻繁,如今,還得再加上企業資料的混搭和Web 2.0應用的因素,使得非結構化資料量的成長速度,已大幅超越結構化資料。

既然如此,將非結構化資料統整起來、強化控管,必要性也是日俱增,例如為了回應法規遵循上的要求。

想要管理非結構化資料,做法上也莫衷一是,你可能先想到的是知識管理系統(KM)、搜尋引擎或文件管理系統;相較之下,跨國大型軟體公司所推動的,卻可能是內容管理系統(Content Management System),或認為從資料庫即可解決相關的問題。像Sybase就認為,這其實只關乎大型資料倉儲的規模、建置難度與所需的軟硬體成本。而IBM則是想透過隨選資訊的概念(Information on Demand,IOD),企圖全面、統一地檢視各種來源資訊,管理大量分散的資訊,以便提升企業決策和回應的速度。

把資料放在資料庫當中,是否真能解決問題?網擎資訊研發協理葉慶章認為,資料庫廠商原本就會為了能持續提供多種功能,將這些機制在系統中予以內建、改良,是容易理解的,但是對搜尋引擎、內容檢索功能來說,這麼做並不會大幅增加資料擷取的困難度。

他表示,這些非結構化資料之所以難以管理,問題往往出在如何將內容轉換成語言、文字,或者在兩者之間對映。例如語音、圖片等實體內容,只要能設法辨識、擷取出全文或存取到該檔案的「詮釋資料(Metadata)」,即可順利檢索書本或錄音。至於那些已經以文字形式存在的內容,由於無須經歷「實體轉虛擬」的階段,只透過建立索引,就能歸納出條理,達到易於檢索的目的。

資料庫支援XML,擴大不同資料來源的整合力
問︰資料庫廠商為什麼很關注這個議題?
答︰大部分的企業內部資料都是非結構化的。一般對於資料庫的想像,仍停留在資料表(Table)的形態,所存放的都是處理好的資料,然而,當網際網路流行,網頁的資料、文件大幅增加,使得企業每天產出的資料不再集中,而且也不會立即想到存放資料庫。我認為,對資料庫廠商而言,之所以強調對於能夠收納與管理非結構化資料,主要是基於產品銷售的重心必須有所調整所致。

說穿了,資料庫是一個儲存資料的系統,能夠提供使用者增、刪、查、改等功能;在這樣的基礎上,甚至能做資料倉儲(Ware-housing)、商業智慧(BI)、資料採礦(Data Mining)之類的工作。不過,如果資料庫系統要納入非結構化資料,通常都用建立型錄和參考等方式,用指標去管理與儲存文件、圖片或多媒體檔。

從2000年以後,他們陸續推出相關的解決方案,也就是資料庫直接支援XML。但早期的做法不太理想,主要是用Element的概念去對應資料庫欄位,假如XML的欄位需要增、刪,甚至可能迫使資料庫必須全部更新一遍,因為整個Schema都不同了。

隨著資料庫管理系統的持續改版,廠商紛紛以Native XML或PureXML為號召,就是從底層去實作,他們透過特殊的結構,讓欄位增、刪的作業可以更容易去處理。當技術比較成熟之後,這樣的解決方案就更常看到推出。

XML還有一個缺點要克服︰內容搜尋的效率不是很好,因此新版資料庫管理系統也強調改善了XML DB的性能,使得資料庫的整體效能隨之提升。

不過,根據我的觀察,企業之所以把資料集中放在資料庫裡,主要是為了方便存取,或者是習慣使然。但是,資料放在資料庫當中,是否就真的解決了問題?對搜尋引擎廠商而言,資料庫只是個媒介,無論你將資料存放在何處,要做到能檢索內容,還是需要搭配其他的方案。

資料庫增強內容管理,進軍搜尋應用
問︰許多開發資料庫的廠商,除了宣稱能處理非結構資料外,他們本身也有其他延伸應用,這些系統的作用是什麼?
答︰像Oracle在處理非結構化的資料,他們有一套專作跨網站內容管理的中介軟體Content Management,可以透過它將這類型資料儲存到資料庫上。事實上,並不是資料庫本身支援非結構化資料,就能夠立即處理,應用上沒那麼簡單。

光是把Word檔存入資料庫,並無法直接變成一種應用或解決方案,也就是說,資料庫本身即使提供了功能,必須要透過一些Plug-in、Wrapper,讓企業更容易使用。這些系統的底層可能採用了XML這類技術去介接。

就像Office 2007存成的檔案就是XML,按理來說,支援XML處理的應用系統或資料庫對於該格式的資料的存取上,應該變得比較簡單,但早期Office的文件檔並沒有這樣的設計,如何將這些資料轉成XML檔呢?資料庫廠商通常不會提供這方面的功能,企業必須找人去寫程式,才能轉譯這部分的內容,變成企業必須背負的成本。所以,乾脆用一套內容管理系統,讓企業將所有相關資料匯入,方便解決這部分的需求。

問︰上述我們所提到的這些管理系統或應用形態,和網擎所開發的搜尋引擎所著重的部分,是不是有相同之處?
答︰有些地方看來是相似的,但我們認為,資料庫只是各種資料來源的其中之一。搜尋引擎能夠蒐集各種資料源,例如納入檔案與網頁內容,並且整合Notes與Exchange系統所存放的資料。一般資料庫卻沒辦法單靠一己之力做到,雖然可以透過一些解決方案把資料匯進來,但還是必須搭配這些產品,才能取得使用性更佳的搜尋功能。

資料庫是為了儲存資料、提供查詢。資料的形態不斷在變化,為了避免「只能存而無法更有效地查詢」的窘境,廠商會想辦法,繼續擴充資料庫的用途。

問︰這麼說,以搜尋引擎來說,所關切的並不是資料是否集中儲存,而是?
答︰假設有5萬筆資料都已預先放進資料庫,供查詢之用,我們會先詢問企業是否需要「特別」的運用─檢索的資料量很大,或需要很短的查詢反應時間。如果不是,我認為,可能不太需要用到搜尋引擎,因為快不到哪裡去。很可能只要索引建立好,輸入SQL指令一查,同樣可以存取到資料。

資料庫廠商之所以積極納入更多應用,另一種考量是增加能見度。
對文件管理、KM系統來說,使用者看到的是整個應用系統的成效。
不管怎麼說,資料庫的作用總是屬於底層,很難直接變成前端應用,所以這些資料庫廠商必須趕快補齊這個層次的系統產品,所以他們也能供應一整套解決方案,讓企業使用,而非只是銷售基礎平臺。

聲音、圖片內容的技術整合,已有初步進展
問:有些資料庫管理系統宣稱,能儲存與查詢MP3和圖片、影像的內容,為什麼可以做到?是因為XML?還是有其他技術的輔助?
答︰以MP3檔為例,除了存放聲音,檔案本身還包括一些詮釋內容用的資訊(Metadata),例如ID3標籤,裡面記載了歌手、曲名等資訊。過去資料庫的使用,做法上只把這些非文字的內容當作Binary檔直接存入BLOB(Binary Large Object)欄位,之後什麼也不做;未來,如果在資料存入系統時,就能自動辨識該資料的類型、格式,就可以擷取詮釋資料、甚至內容,便於日後查詢,就會解決很多先前無法處理的問題。

以往這些資料的內容是沒辦法查閱的,如果能抽出裡面的詮釋資訊、甚至轉換成文字,讓使用者可以查詢,就可以再應用到知識管理、資料倉儲、商業智慧。沒有這些做法,要處理非文字的非結構化資料,將非常辛苦。

問:如果資料庫廠商都能整合這方面的功能,對你們來說,可以省掉不少負擔吧?
答:
每家搜尋引擎的做法不同,網擎所標榜的是用自己的技術,而非藉助資料庫的方式,好處是效能都由我們自己掌握,相較之下,資料庫供應越多功能,耗費的效能與所需的儲存空間都是比較大的。

不過,當資料庫附加功能再繼續增加下去,是否提高企業選擇這類型產品的機會?我認為,其實也未必,因為這些原廠的主力還是資料庫,所有延伸應用仍然會繞著它轉。我們的主力還是在提升企業搜尋引擎的可用性。找到資料後,還可以發展的細部功能仍然不少,舉例來說,像是增強內容點閱的互動性,讓使用者能夠留言、寫評論,這些都不是資料庫廠商想要特別去針對的。

資料庫廠商無非想讓資料庫的應用繼續成長、接收更多資料源、拓展更多企業應用,因而逐漸跨到搜尋這方面的功能。對搜尋廠商來說,則是往更多服務的使用面向去發展,並不會太直接受到影響。

問:所以對你們來說,資料庫功能的擴展,同樣能幫助你們匯聚更多資料源、增加掌控度?至於桌面搜尋上,像Google也發展一段時間了,以你的觀察,他們對非結構資料的資料源掌握得如何?
答︰對我們來說,如果企業需要更多資料源的連結與擷取,我們仍將持續提供,支援新的主流檔案格式,例如圖片或MP3的詮釋資訊。至於Google,他們內部應該有一些像是整合語音等非文字內容的研發計畫。

我相信他們一定對這個領域很感興趣,把Binary檔案轉成文字,讓你可以查詢得到豐富的資料,就有機會形成更多應用。善用多功能事務機,也能協助管理
問︰Google或微軟都在從事關於圖書搜尋,按理來說,會從光學字元辨識(OCR)下手,才能轉存成內容。如果企業打算從這部份開始著手整理,那你們會建議怎麼作?
答:有些用戶先前已經先掃描過一些資料,他們曾經向網擎徵詢能否幫他們做到查詢。在產品上,我們並不主動處理這方面的需求,原因是那不是我們的主要業務範圍,而且這些工作還有一些技術上的障礙需要突破。像是傳統印刷出來的紙本文件,辨識上還是會有誤判,耗費人力去修整是免不了的,成本也可能增加不少。

我相信Google、微軟都在進行,而且應該也有一氣呵成的解決方案。這些技術一直在進步,就像發展了多年的語音辨識,可是離真實應用還是有一段距離。一旦技術上有所突破,整合到既有內容的產品或服務是可以想見的,然後才有可能更快速地增加這些資料的價值,否則,運用這些資料上的進展,仍舊有限。

問︰以多功能事務機/印表機技術為基礎的文件管理解決方案,已經成為企業列印產品的新發展,開始強調提供完整的文件解決方案,並且往流程管理、BPM去發展,可能之後也必須整合這方面內容?
答:他們最後都會應用到搜尋,但該技術不是他們所研發的重點,同樣得找協力廠商合作、整合,才能完成任務。

印表機、掃描機為什麼需要整合這部分應用?因為這牽涉到法規遵循要求,例如電子郵件、文件需要備份、歸檔。儲存、整理Office檔案還算簡單,因為是電子檔;但紙本的話,可不見得都能隨便找個工讀生來處理,企業等於又多了一些人力負擔。

我認為,將來這些前置處理流程可能會全部整到事務機裡,在掃描、影印同時,一次做完所有相關的工作,而且企業也願意接受這項做法。隨著關於資訊法規的推動,這種應用已經開始實現,據我所知,日本的企業已經面臨這樣的需要。

問:比較可惜的是,目前相關廠商都是各行其事,必須等到特殊需求出現,才會產生眾多廠商的合作關係,可是如果能供應一個更全面的套裝解決方案,也許這方面的應用將會更成熟。這部份通常沒有一個廠商專門處理,有需要的企業往往先找上文管或搜尋廠商,然後又得再搭配其他廠商。
答:不知道該找何種類型的廠商協助,的確是問題。我認為,未來用戶除了從文件管理、KM和搜尋引擎下手,多功能印表機也將成為解決這類議題的方案之一。

不過,假如廠商只是將解決方案從國外帶進臺灣,缺乏足夠的Know How,仍無法協助解決問題。

在臺灣,企業IT一向只將印表機、影印機看待成硬體設備,而不是應用系統。就算企業知道這樣的方式可以解決,但平常他們所接觸的可能是印表機維修、銷售人員,從他們口中,如果無法直接了解明確的做法,企業也不會輕易去嘗試。整體來說,多數公司都找不到合適的詢問對象,多半都是遇到KM、文管或搜尋廠商,才了解的確是需要這樣的系統。

不論是OCR或文管、搜尋等廠商,彼此之間都有一定的技術門檻,各自專攻,再加上業者通常也不會主動推廣這類型的解決方案。多半都是臨時有需求,才找其他廠商一起搭配,彼此之間並不是處於持續合作的狀態,也就難以形成套裝的產品或服務。

需回應法規遵循的要求,增強控管趨力
問:在法規遵循上,要作好郵件歸檔的工作也不是很容易,我們要把他當成非結構資料放到資料庫去,須包含很多人的資料,而且又不是一個獨立的檔案,你們是怎麼作的?
答:你可以發現,微軟、IBM、Oracle等廠商,在資料庫應用上並未提及到郵件歸檔上的應用,還是由專屬解決方案的廠商負責供應。

這是因為,郵件的形式相當特殊。如果以檔案的方式去看內容,它屬於非結構化資料,但是郵件內容的組成已應用了欄位的概念(例如區分出主旨、寄件者、收件者……),還是可以區分出結構。

也有廠商將郵件存在資料庫裡面,不過資料庫的強項是提供儲存和查詢,處理規模上還是會遇到一些限制。為什麼資料量是需要注意的?我們收到郵件的速度和數量遠遠超過自行產生一般文件。在備份上,你必須認清一件事,當你要處理的是全公司的郵件,每天所累積的數量是相當龐大的。

我們也曾經考慮過放在資料庫,但量這麼大,查詢時該怎麼辦?於是就改用搜尋引擎去解決這樣的問題。在我們開發的系統中,一個郵件索引裡面,可以存放到600萬封信、2,000多萬筆資料,如果企業規模較大的,可能兩三天就得切割一次索引。單靠資料庫本身的能力去應付,效能上勢必無法因應大量查詢。整理⊙李宗翰



處理非結構化資料的3大要點

如果企業想更了解非結構化資料的狀態,找到妥善的管理方式,葉慶章建議從以下3個角度切入︰

1.資料管理方式
相對於資料統一存放於資料庫,非結構化的檔案資料易散落在不同地方,因此可能會造成資料遺失或者是使用上面的困難。一般建議作法為:規畫完善的檔案伺服器供員工來保存相關資料,更近一步可以針對檔案來進行版本控管,讓每次的變更修改內容,系統都有留下相關的記錄,有助於整個資料的管理。

2.資料取得方式:
(1)瀏覽 (類似檔案總管方式),需依賴檔案、資料夾有很清楚的架構,讓使用者可以從目錄、檔案名稱,即可用簡單的方式搜尋到資料。(2)檢索(類似搜尋引擎方式),只要使用者輸入關鍵字後,可以在很短的時間內得到結果。這種方式的重點在於搜尋引擎的資料更新效能,如果沒有辦法很快速的更新,那使用者有可能會得到舊的資料。

3.資料安全控管
資料存放時是否有妥善設定好相關的權限管制?當資料都已經統一放置檔案伺服器時,讓使用者更容易取得資料,這時,安全性的問題也隨之產生。這部分又可分成幾個項目:

安全性(Security)
要注意,當資料置於檔案伺服器時,是否已經完成設定相關的權限?
一般的權限可以簡單分成三種:(1)共享權限:透過 Windows 網路芳鄰的使用權限設定,去限制可讀取該分享資料夾下的所有檔案。(2)NTFS 權限:設定 Windows 檔案的安全性,可針對每個檔案進行個別讀取權限控管,確保每個檔案都是只能夠被合法的人員取得。(3)DRM 權限:除了一般檔案讀取控管外,還可以透過 DRM 系統來針對複製、列印等來做更進一步的限制。

政策(Policy)
針對資料內容的機密性,公司可能會訂定相關的原則加以規範,這部分會需要確認使用者是否遵循該套政策來設定相關的安全性。

存取控制(Access Control)
取得資料時,是否依據安全性、公司政策等原則,去執行存取權的限制?當使用者透過瀏覽或者是檢索來取得資料,相關的系統也都必須提供權限控管的機制,來確保整體的資料安全性。

專欄作者

熱門新聞

Advertisement