Data Mining Algorithm
在資料採礦中,用來分析歷史交易數據,進而預測趨勢所使用的演算法
利用演算法來分析企業內各種資料,處理後的結果可以供企業預測或者策略修改,這便是資料採礦。而分析過程所使用的演算法就是資料採礦演算法。
演算法原本是解決數學問題的程序,例如在3X3的方格內置入1到9,讓方格數字直的、橫的和斜的數值總和都一樣的魔術方陣,或者在三根長木釘上,將金屬環片按照一定規則移動的「河內塔」,都是運用演算法解答的謎題。
就像在圖書館中,藉由特定方法在不同書籍中找出共通或者連貫的智慧。可是要找出書籍的共通思想或者連貫的智慧,須要先將所有書本做好分類,分類方法有許多種,可按部首、字母、內容,甚至書本的大小排列。對書籍的排列、分類方法,與內容的整理方式便是演算法。
而演算法運用在電腦上,不再局限於數學的運算,也不是簡單求得一組數據或者結果而已。將這個概念延用到資料倉儲系統,在資料庫的大量數據中,找出特定關係,或者分析既有的數據,建立一個模式,並由此模式去推斷或預測趨勢,這樣的過程稱為資料採礦(Data Mining)。
運用在資料採礦的演算法有許多種,在不同資料或需求時所選擇的不盡相同。如果想了解過去幾年的營業額成長狀況,就需要使用與時間有關係的演算法;當你需要去預測事件發生的機率時,便不能使用關聯性的分析演算法。假如想在完全不相關的產品,或者群組中找出關聯性,與計算出機率有關的演算法便不適合。在正確的數據資料上使用合適的演算法,才能夠有正確的分析結果。
自資料倉儲技術蓬勃發展以來,商業智慧受重視的程度與日俱增。
原本在大量交易資料中無法觀察出的關聯性,企業越來越能分析出這樣的特性。例如啤酒與尿布,這兩件看似沒有任何關聯性的產品,透過資料採礦的技術可以將其中的關聯性找出來:原來是因為家裡有小嬰兒的先生到大賣場去幫家裡買尿布時,順便買了啤酒。
在得知這樣的結果之後,企業可以將在銷售上相輔相成的產品組合在一起,或者將售出量互相抵銷的產品分開,改善各自的業績。運用演算法求得資料之間的關聯性,可以幫助企業分析營運狀況、改善策略與預測趨勢,藉以提高效率、增加營收並降低風險。文⊙林柏凱
|
不同分析需求所適用的演算法 |
|
| 預測屬性 | 演算法 |
| 分隔屬性 | 決策樹、貝氏機率、類神經網路、羅吉斯 |
| 連續屬性 | 迴歸樹、時間序列、類神經網路 |
| 尋找關聯項目 | 關聯分析、時間序列 |
| 尋找相似項目 | 群集 |
| 資料來源:iThome整理,2008年10月 | |
Decision Tree
決策樹演算法
決策樹是用來分析複雜狀況,幫助決策的流程圖,透過簡單過濾方式,產生樹狀架構的分類規則,將相同特徵的資料逐一分類,並採用樹狀結構來產生規則。
例如在猜一個人的名字時,我們可以用性別、年齡、國籍與職業身分等方法,逐一過濾、分析出所要猜測的人是誰。決策樹也是,它利用同樣的方法將資料逐一分類,並且統整出同一分支的共通性。
Clustering
群集演算法
群集演算法的分群,是依照客戶之間基本資料,或是行為模式的「相似性」來分類。例如騎腳踏車上班的人,除了能猜想居住地離上班地點較近之外,透過群集演算法的協助,我們可以進一步推測,這些人可能都擁有超過某種排氣量的汽車。
這種演算法主要是歸納出相似性,並無法預測出任何的結果。因此如果對同一組資料使用不同角度的分類方式,結果可能會有很大差異。
Naïve Bayes
貝氏分類演算法
貝氏機率分類是條件機率的結合。就像撲克牌,玩家若想拿到同花順,勢必受限於先發到手中的那三張牌,意思是後面所發生的事件(同花順)的機率,會以前面發生事件(手中的三張牌)為條件。
在所有演算法中,貝氏機率分類演算法需要的計算量較少,因此對於快速產生資料採礦模型,從而分析輸入資料與可預測的資料間的關聯性,將會很有用。
Correlation Analysis
關聯分析演算法
藉由關聯分析,可以得知哪些產品之間具有互相影響的銷售效應。
一般用在建議方面的邏輯處理引擎或購物籃分析,它可以依據客戶的目前或過往的消費內容,去推薦類似的、相關的產品。
許多購物網站都採用這樣的演算法。例如當你購買了一張古典樂的CD,透過關聯分析演算法便可以得知,同樣購買這張CD的人還選擇了哪些產品。
Regression Tree
迴歸樹演算法
結合了迴歸模型與決策樹演算法的特性,可以分析非線性結構,且連續變數的預測,則交由迴歸模型處理的特性,這便是迴歸樹。
這種方式,可以用類別變數或者連續變數做為樹狀分岔的基礎,透過決策樹分析後,每個節點就成為新的樣本,接著再針對新的樣本個別執行線性迴歸分析。所以,對於迴歸樹,我們可以想像成:許多線性迴歸的組合。
Linear Regression
線性迴歸演算法
是用來預測趨勢或顯示整體概況的分析方法,主要由一條直線代表資料整體的大致趨勢。
線性迴歸可以簡單地預測趨勢,以廣告費用與汽車販售量之間的關係為例。廣告費用越高,汽車銷售量也隨之提高,但是兩者之間不一定是正比關係,此時便可以用線性迴歸的方式,將兩者之間「大致」的關係顯示出來。並且可以試著預期:下次提高或者減少廣告費,對汽車銷售量有什麼影響。
Time Series
時間序列演算法
它主要是一群統計資料,按照發生的先後順序,將資料連貫的輸入,最後由記錄資料預測往後的趨勢。
在其他演算法中,通常需要提供新的資訊,演算法模型才能夠預測。而時間序列演算法可以直接利用過往資料,去執行接下來的預測分析;當然也可以提供新的資訊,將他們納入演算模型中,讓時間序列演算模型可以更精確地預測。
主要應用在經濟學和各種與時間相關的連續數值預測。
Artificial Neural Networks
類神經網路演算法
類神經網路是一種模擬動物的神經元,將它們組合成網狀來模仿生物神經網路的能力。
運作上大都需要以範例做為資料,藉由過往輸入的範例資料來學習。它的特色在於,可以由已知的資料,推測尚未得知的數值型態資料。
這種演算法可以用在連續變數與類別變數的預測,適用於衡量行銷、促銷、廣告等活動的績效。
Logistic Regression
羅吉斯迴歸演算法
這種演算法對於二元離散資料與醫學方面的應用很廣泛。
迴歸模型在預測連續數值時,是相當有效的分析方法,但是在一些特殊連續數值會嚴重錯誤與偏差。例如要預測的數值資料是百分比,最高只有100%,可是用迴歸模型會產生超過100%的結果。而羅吉斯迴歸的特點是,一般迴歸計算式結果接近無限大時,羅吉斯的結果趨近於1,反之,若一般迴歸計算趨近於負無限大時,羅吉斯會趨近於0。
熱門新聞
2026-01-12
2026-01-16
2026-01-12
2026-01-16
2026-01-12