實際上線測試是最好的方法,但我們無法在真實的環境下,同時測試所有的產品,而且若僅是測試1星期或1個月,所涵蓋的範圍仍然有限。因此,我們採用變通的方法,以國內某公司3個月的網頁瀏覽記錄為樣本,由各家廠商進行分類,以驗證網頁分類資料庫的涵蓋率及分量數目。樣本總共有1174300筆,內容包含URL(HTTP、HTTPS)、IP位址及FTP等。

參照各家廠商的分類結果,以下是我們的分析:

硬體 vs.軟體:在分類前,有些廠商是先去除無效的URL和IP位址,再進行後續的動作,由於各家的標準與分類資料庫不同,所以數據也相差甚多,例如新視科技和8e6等硬體廠商是先將IP位址和無效的URL予以剔除,然後再進行分類,但Websense和Secure Computing等軟體廠商則是分析所有的資料。我們也可以由此看出硬體裝置和軟體系統的不同之處。

網頁郵件:MSN Messenger能夠檢查是否有新的Hotmail郵件,在此次的測試樣本中,大約有90萬筆是MSN Messenger的更新資料,但它會被歸為那一類呢?

SmartFilter將它歸類為網頁郵件,WebSweeper歸為電腦與網際網路,而Websense則將MSN Messenger的使用者更新(User Update)歸類為動態內容(Miscellaneous Dynamic Content,包含計數器、未歸類廣告、P2P偽造網址或Softether流量)。

雖然都是連結到Hotmail伺服器,但是由瀏覽器所能看到的內容,與由MSN Messenger所看到的內容,絕對是不同的,因此,我們比較認同Websense的分類。

網站內容:一個網站可能代表不同的類別,以入口網站為例,包含搜尋引擎、網頁郵件、拍賣、新聞…等類別,並不適合歸為單一類別,必須依照網頁內容進行分類。因此,除了依照URL和IP位址進行過濾,能否區分每個網頁的類別,也是選購時該注意的重點。

資料庫分類數與涵蓋率:「已分類URL / 全部URL」就是資料庫的涵蓋率,數值越高代表涵蓋率越高。一般的涵蓋率大約都有8成以上,但我們不禁要問,這真的是企業需要的嗎?因為這些分類資料庫最早是用於教育單位,但適合學校的,不一定適合企業,適合製造業,也不一定適合服務業。

觀察各家廠商的分類數據,即使是同一種分類,數值也相差甚多,而且每家的分類數目不儘相同,少的僅有30餘類,多的則高達80餘類,數量多寡各有優缺點,找到真正合用的分類才是最重要。而且企業所定義的不當網站也比教育單位簡單的多,只要是與生產無關的,應該都屬於不當網站,也就是說,依工作性質設定白名單網站,會比設黑名單來的簡單實在。文⊙陳世煌

熱門新聞

Advertisement