Data Mining
資料採礦,應用演算法分析,發掘含藏在資料裡的趨勢訊息

關於資料採礦的應用,美國零售業龍頭沃爾瑪(Walmart)有個令人津津樂道的例子。該公司為了掌握顧客的購買習性,從資料倉儲大量的原始交易資料中進行資料採礦,企圖發掘顧客經常一起購買的商品會是什麼。最後找出的結果令人意外,最常被合購的竟是「啤酒」與「尿布」,儘管兩件商品看起來毫無關聯。

進一步分析這個結果,這兩件商品其實隱含了特定的購物模式。購買嬰兒尿布經常是整箱出售,這需要力氣大的男性,而男性在購物時又會經常為自己購買啤酒,也因此這兩者合購的機會大增。沃爾瑪便針對這個特性,在特定門市將尿布與啤酒擺設在一起,結果尿布與啤酒的銷售量果然大增。從這個例子便能得知資料採礦的資料煉金魅力。

伴隨著企業的營運,每天都有各式各樣的資料產出,經年累月累積的資料量便相當驚人,而這些資料其實記錄著相當豐富的訊息,但是如何有效、正確地找出其中的意義並不容易。

資料採礦應用了許多統計與人工智慧相關的演算法,對資料加以分析、歸納與整合工作,呈現、凸顯那些存在於資料中的趨勢;之後,再定義為採礦模型,即可套用到像是預測銷售、促銷規畫等行為。透過這樣的方式,資料採礦能在龐雜的資料中發掘更多意義與趨勢,藉此提升企業的營運成效。

企業想要導入資料採礦,通常必須先建置資料倉儲,而資料倉儲中的資料必須先經過清理與格式轉換等工作,才能讓資料採礦順利進行。而資料採礦工具本身大致可分為泛用性的套裝軟體,也有針對像是零售、金融等特定產業的工具。這些軟體能對資料執行分類、推估、預測、關聯分組與同質分組的工作,藉此產生具有預測效果的資訊。

資料採礦雖然能夠發掘出隱而未見的關係或趨勢,但是也有可能過度匹配,找到效益不大甚至錯誤的資訊。也因此資料採礦雖然能自動在大量資料中發掘資訊,但仍需專業的人士介入判讀、評估,才能讓資料採礦發揮最大效益。文⊙黃天賜

Data Warehouse
資料倉儲

資料倉儲雖然也是一種資料庫,然而不同於一般交易型的資料庫(Online Transaction Process,OLTP),通常資料倉儲具有特定主題,將交易型的資料庫經由一定篩選、整理之後才匯入資料倉儲。

資料倉儲是為了查詢、分析目的而設立的資料庫,通常會將資料反正規化或用星狀結構等方式儲存,提升查詢效率。能儲存大量、長期的資料,也是資料倉儲的另一個特點。

Web Mining
網頁採礦

將資料採礦的技術延伸,並且應用到網站上,就是所謂的網頁採礦。網站是企業與客戶互動的管道之一,對於提供網路服務的業者來說,網頁更是了解客戶的唯一管道。因此除了網站流量之外,如果能得知哪些內容吸引用戶、他們在網站上如何活動、哪些廣告區塊最具效益等,都是透過資料採礦加以了解的地方。另外網頁採礦也不限於網站的資料,可以進一步整合其他來源資料,予以分析,找出更具意義的行為。

KDD,Knowledge Discovery in Database
發掘資料庫知識

發掘資料庫知識指的是找出資料庫中具有知識價值的資料,而它設計了一套流程,用來有效發掘與形塑資料中隱含的模式(pattern)。

KDD的流程包含了資料的選擇、前置處理、資料轉換、資料採礦以及資料詮釋與評價,因此資料採礦是包含在KDD流程中的一環。這個流程是一個動態循環的過程,透過反覆地進行,找出具有價值的知識。

Algorithm
演算法

演算法可說是資料採礦的核心技術,透過問題的不同性質,採用適合的演算法進行分析,以找出正確的結果。

例如:將資料分為好、壞的級別,就能利用像是決策樹、神經網路等演算法;而與時間有關的預測行為,像是銷售分析、預測股票價格等,就適合使用時間序列演算法。演算法的多寡,決定資料採礦工具的分析能力,也因此許多套裝工具都支援擴充第三方的演算法,以強化分析能力。

Decision tree
決策樹

決策樹是常見的資料採礦演算法,適合應用在分類行為上,由於分析的過程是會發展出像樹枝狀的分析結構,因此被稱之為決策樹。

決策樹的發展過程,是以根部的節點出發,用一個變數決定該進入哪一個子節點,每個節點即代表「是」或「否」的問題點,接著依據結果再前往下一個問題,最後達到葉部節點為止,同時也得到了結果。

PMML,Predictive Model Markup Language
預測模型標記語言

預測模型標記語言(縮寫為PMML)是由Data Mining Group所推出的資料採礦模型語言,用來定義預測模型,它也是基於XML的標記語法。PMML的目標在建立可跨平臺的模型語言,讓不同的資料採礦工具及商業智慧應用程式能更容易地交換與應用預測模型。
由於Data Mining Group包含了像IBM、Microsoft、Oracle等大廠,PMML也成了業界標準。

DMX,Data Mining Extensions
資料採礦延伸模組

DMX是Microsoft在SQL Server 2005中所提供的資料採礦延伸語言,由於語法近似SQL,因此使用者在建立與處理資料採礦模型時較為容易。

DMX可以用來建立企業大量資料的採礦模型結構、並進一步發展這些模型,並可瀏覽、管理與預測模型。DMX包括資料定義語言 (DDL) 陳述式、資料操作語言 (DML) 陳述式,並提供常用的函數和運算子。

Time Series Analysis
時間序列分析

「時間序列分析」是用來分析和時間有關的資料,它通常應用在資料採礦模型中,能夠協助了解隨著時間而改變的趨勢,因此能提供企業用來預測產品的銷售狀況或是顧客的喜好變化等。

時間序列預測除了可以用來分析固定的時間區間(例如小時、天、月、年),也可尋找時間的循環性(例如景氣循環)模式,或是依照季節成分加以分析(例如季節對銷售量的影響),藉此了解時間與資料的關係。

Machine Learning
機器學習

機器學習指的是程式透過經驗的累積而能自動學習,以提升正確性,例如透過人機互動的累積經驗,自動發掘出使用者的偏好。

在資料採礦的應用上,機器學習也占有舉足輕重的地位,它能透過自動學習的機制,從大量資料中找出具有價值的規律,例如從大量的客戶的財務資料中,自動發掘出信用貸款的風險法則。


熱門新聞

Advertisement