從資料中挖掘有用資訊的演算技術

Data Mining Algorithm
在資料採礦中，用來分析歷史交易數據，進而預測趨勢所使用的演算法

利用演算法來分析企業內各種資料，處理後的結果可以供企業預測或者策略修改，這便是資料採礦。而分析過程所使用的演算法就是資料採礦演算法。

演算法原本是解決數學問題的程序，例如在3X3的方格內置入1到9，讓方格數字直的、橫的和斜的數值總和都一樣的魔術方陣，或者在三根長木釘上，將金屬環片按照一定規則移動的「河內塔」，都是運用演算法解答的謎題。

就像在圖書館中，藉由特定方法在不同書籍中找出共通或者連貫的智慧。可是要找出書籍的共通思想或者連貫的智慧，須要先將所有書本做好分類，分類方法有許多種，可按部首、字母、內容，甚至書本的大小排列。對書籍的排列、分類方法，與內容的整理方式便是演算法。

而演算法運用在電腦上，不再局限於數學的運算，也不是簡單求得一組數據或者結果而已。將這個概念延用到資料倉儲系統，在資料庫的大量數據中，找出特定關係，或者分析既有的數據，建立一個模式，並由此模式去推斷或預測趨勢，這樣的過程稱為資料採礦（Data Mining）。

運用在資料採礦的演算法有許多種，在不同資料或需求時所選擇的不盡相同。如果想了解過去幾年的營業額成長狀況，就需要使用與時間有關係的演算法；當你需要去預測事件發生的機率時，便不能使用關聯性的分析演算法。假如想在完全不相關的產品，或者群組中找出關聯性，與計算出機率有關的演算法便不適合。在正確的數據資料上使用合適的演算法，才能夠有正確的分析結果。

自資料倉儲技術蓬勃發展以來，商業智慧受重視的程度與日俱增。
原本在大量交易資料中無法觀察出的關聯性，企業越來越能分析出這樣的特性。例如啤酒與尿布，這兩件看似沒有任何關聯性的產品，透過資料採礦的技術可以將其中的關聯性找出來：原來是因為家裡有小嬰兒的先生到大賣場去幫家裡買尿布時，順便買了啤酒。
在得知這樣的結果之後，企業可以將在銷售上相輔相成的產品組合在一起，或者將售出量互相抵銷的產品分開，改善各自的業績。運用演算法求得資料之間的關聯性，可以幫助企業分析營運狀況、改善策略與預測趨勢，藉以提高效率、增加營收並降低風險。文⊙林柏凱

不同分析需求所適用的演算法
預測屬性	演算法
分隔屬性	決策樹、貝氏機率、類神經網路、羅吉斯
連續屬性	迴歸樹、時間序列、類神經網路
尋找關聯項目	關聯分析、時間序列
尋找相似項目	群集
資料來源：iThome整理，2008年10月

Decision Tree
決策樹演算法
決策樹是用來分析複雜狀況，幫助決策的流程圖，透過簡單過濾方式，產生樹狀架構的分類規則，將相同特徵的資料逐一分類，並採用樹狀結構來產生規則。

例如在猜一個人的名字時，我們可以用性別、年齡、國籍與職業身分等方法，逐一過濾、分析出所要猜測的人是誰。決策樹也是，它利用同樣的方法將資料逐一分類，並且統整出同一分支的共通性。

Clustering
群集演算法
群集演算法的分群，是依照客戶之間基本資料，或是行為模式的「相似性」來分類。例如騎腳踏車上班的人，除了能猜想居住地離上班地點較近之外，透過群集演算法的協助，我們可以進一步推測，這些人可能都擁有超過某種排氣量的汽車。

這種演算法主要是歸納出相似性，並無法預測出任何的結果。因此如果對同一組資料使用不同角度的分類方式，結果可能會有很大差異。

Naïve Bayes
貝氏分類演算法
貝氏機率分類是條件機率的結合。就像撲克牌，玩家若想拿到同花順，勢必受限於先發到手中的那三張牌，意思是後面所發生的事件（同花順）的機率，會以前面發生事件（手中的三張牌）為條件。
在所有演算法中，貝氏機率分類演算法需要的計算量較少，因此對於快速產生資料採礦模型，從而分析輸入資料與可預測的資料間的關聯性，將會很有用。

Correlation Analysis
關聯分析演算法
藉由關聯分析，可以得知哪些產品之間具有互相影響的銷售效應。
一般用在建議方面的邏輯處理引擎或購物籃分析，它可以依據客戶的目前或過往的消費內容，去推薦類似的、相關的產品。

許多購物網站都採用這樣的演算法。例如當你購買了一張古典樂的CD，透過關聯分析演算法便可以得知，同樣購買這張CD的人還選擇了哪些產品。

Regression Tree
迴歸樹演算法
結合了迴歸模型與決策樹演算法的特性，可以分析非線性結構，且連續變數的預測，則交由迴歸模型處理的特性，這便是迴歸樹。

這種方式，可以用類別變數或者連續變數做為樹狀分岔的基礎，透過決策樹分析後，每個節點就成為新的樣本，接著再針對新的樣本個別執行線性迴歸分析。所以，對於迴歸樹，我們可以想像成：許多線性迴歸的組合。

Linear Regression
線性迴歸演算法
是用來預測趨勢或顯示整體概況的分析方法，主要由一條直線代表資料整體的大致趨勢。

線性迴歸可以簡單地預測趨勢，以廣告費用與汽車販售量之間的關係為例。廣告費用越高，汽車銷售量也隨之提高，但是兩者之間不一定是正比關係，此時便可以用線性迴歸的方式，將兩者之間「大致」的關係顯示出來。並且可以試著預期：下次提高或者減少廣告費，對汽車銷售量有什麼影響。

Time Series
時間序列演算法
它主要是一群統計資料，按照發生的先後順序，將資料連貫的輸入，最後由記錄資料預測往後的趨勢。

在其他演算法中，通常需要提供新的資訊，演算法模型才能夠預測。而時間序列演算法可以直接利用過往資料，去執行接下來的預測分析；當然也可以提供新的資訊，將他們納入演算模型中，讓時間序列演算模型可以更精確地預測。

主要應用在經濟學和各種與時間相關的連續數值預測。

Artificial Neural Networks
類神經網路演算法
類神經網路是一種模擬動物的神經元，將它們組合成網狀來模仿生物神經網路的能力。

運作上大都需要以範例做為資料，藉由過往輸入的範例資料來學習。它的特色在於，可以由已知的資料，推測尚未得知的數值型態資料。

這種演算法可以用在連續變數與類別變數的預測，適用於衡量行銷、促銷、廣告等活動的績效。

Logistic Regression
羅吉斯迴歸演算法
這種演算法對於二元離散資料與醫學方面的應用很廣泛。

迴歸模型在預測連續數值時，是相當有效的分析方法，但是在一些特殊連續數值會嚴重錯誤與偏差。例如要預測的數值資料是百分比，最高只有100％，可是用迴歸模型會產生超過100％的結果。而羅吉斯迴歸的特點是，一般迴歸計算式結果接近無限大時，羅吉斯的結果趨近於1，反之，若一般迴歸計算趨近於負無限大時，羅吉斯會趨近於0。

熱門新聞