資料倉儲理論與實務
 李卓翰/著
 學貫行銷出版
 售價:650元


在上一個網際網路飆升的年代,1995年前後,「Content is King」喊得震天嘎響。當此之時,獲得與累積資料、產生資訊與整理成知識並不容易,企業間比較的是有沒有建置一些標竿系統,以量取勝。

10年後的今天,網際網路熱再臨,大型系統遍布,資料充斥,要深入分析與善用資料,如Google、Amazon、Wal-Mart等,才能稱王。

由量轉質
時至今日,技術、方法與商業模式都營造了大量累積的資料,巨量的資訊讓人們的注意力變成稀有資源。各中大型企業不再缺乏什麼系統,例如 ERP、CRM、SCM、EIP…都已建置完成,而今需要整合各系統以發揮綜效,讓有意義的資訊與知識適時且直觀地呈現。這令資料倉儲(Data Warehouse)、商業智慧(Business Intelligence)變成流行的名詞。但在臺灣若要說清楚意涵與架構方法,卻又因為缺乏深入淺出的中文書籍而難有普遍共識。

資料倉儲系統其背後代表著多項的技術整合,其技術困難點如下:
● 擷取資料:正確地整合各種資料來源,例如ERP是Oracle、網站與製造資料放在MS SQL Server、各地分公司以.CSV格式傳遞相關資料進總公司等,這些資料都要彙整到資料倉儲中,以提供廣泛的分析基礎。

而資料轉換需要經過挑選、清洗、彙總、豐富等過程,並符合彈性、安全、自動化、高效率等基本需求。

● 儲存資料:就資料應用面的不同,切割大量資料的存放,規劃出操作型資料商店、資料超市與資料倉儲等應用。求取資料超市、資料倉儲與交易資料庫的平衡,畢竟前者以星狀模型為設計基礎,而後者強調三階正規化,務求正確、有效地處理超大量資料。

● 分析資料:筆者粗略地將使用者的分析需求分成四類:臨時性的查詢(Ad-Hoc Query)、靜態報表、多維度線上分析、資料採礦預測等。由於IT人員對於生產良率、客戶需求、公司營運等分析的敏感度不夠,又對多維度分析語言、資料採礦等技術不熟,要掌握分析重點,滿足以上四類需求確實不易。

● 呈現分析結果:呈現結果的方式也非一致格式,例如一般使用者日常所需的生產、營運分析、異常警示等靜態報表;給分析師與經理使用的動態分析和預測;搭配企業管理理論,如平衡計分卡、6個標準差等,給高階管理人員檢視的儀表板。由於各種人對電腦操作的熟悉度不同,對資訊呈現的要求迥異,很難用一套技術滿足所有需求。

● 教育訓練、維護與安全:資料倉儲與BI系統的觀念新、牽涉面廣、使用人數多、資料博雜。在推廣、建置與維護上,需要謹慎考慮。

最後,整體系統設計與實作,還會因日漸高漲的即時性需求(也就是來源的交易資料有修改,在分析報表中可以立刻看到變化),而增加成本與困難度。

李卓翰博士所著:《資料倉儲理論與實務》介紹資料倉儲系統的建置觀念,對於整個系統的組成元素,例如:資料轉換(Extract Transform Load)、資料庫定位、操作型資料商店(Operational Data Store)、資料超市(Data Mart)與資料倉儲、多維線上分析(Multi Dimension Online Analysis Process)、資料採礦(Data Mining)等提供清楚的定義說明。

全書並未輔之以軟硬體產品介紹,純粹的概念剖析,讓人容易理解整個商業智慧系統架構的環節。在建置龐大的資料倉儲流程時,先有完整的架構圖。

可惜本書中未以專章探討前端呈現分析結果之應用程式特徵,就筆者所接觸的分析系統建置,這是很讓人頭大的一環。分析的結果要直觀清楚,還要讓使用者容易深入、聯想、整合與引用分析。這種介面往往對 IT 技術人員而言,是另一個領域的藝術。

另一方面,使用者又往往要求分析報表的呈現須依循老系統的樣式。但新技術的特點與舊系統大不相同,勉強為之,不但發揮不出新平臺的優點,還讓開發者用牛刀殺雞,滿頭大汗地呈現支離破碎的結果。

企業文化與商業智慧導入
任何資訊系統的成功,產品與技術雖很重要,但真正關鍵因素卻在成員素質與企業文化。資料倉儲系統不若交易系統可以明顯地看到投資報酬率,因此更需要上位者眼光宏觀,並能夠察納雅言,不停地吸收新知。而中階經理人要能務實地訂定階段、步驟與方法,確實執行。

同時,分析系統的團隊成員須加入對領域知識(Domain Know-how)熟悉之人才,而不是找當下沒事作的人。部分公司對分析系統的態度還是以「有比較好(Nice to Have)」的心態在建置,因此加入的人往往不是該領域知識的菁英,而是較空閒的人。

分析的需求往往是由上而下,且需要橫向的資料整合才能建立廣泛而深入的系統。團隊成員要有高階經理人加入,整合往往引發政治與資源的角力,因此更需要上位者的遠見與支持。

本書在第1至4節「常見對資料倉儲系統的誤解」,以及第13章「常碰到的非技術性問題」,表列了資料倉儲系統失敗的潛在因素,或許在你規劃系統時,可以先考慮此類企業政治與文化的因素。

就企業文化而言,若重視產品定位、市場行銷,以服務客戶為宗旨,時時改善現況,強調研發創新,要求決策品質。則人人在精益求精的過程中,將會發現手邊可供參考的資訊不足,因而企盼正確有效的知識隨手可得。隨著資訊化的普及與精進,整合與分析的需求將會越來越殷切。

資料倉儲建置是持續的流程
一般建置資訊系統時,其模式固定、目標明確、技術單一,大家較有經驗規劃軟體生命週期的進度。而資料倉儲的建置並非如此,參照前文所列的困難,如彙整資料的來源多樣、累積、運算的需求各異、資料量大而駁雜、呈現分析的方式需直觀方便、整體系統還需時時依照營運重點更改分析模型。

為了提供適合的分析以因應公司營運的各種需求,資料倉儲系統需具備動態增減資料來源、分析模式、呈現方式的能力,因而在資料倉儲系統雛型建立完畢後,後續上線維護時,依然會需要技術人員參與投入。

普遍而言,我們各產業的IT部門對於資料倉儲尚處在摸索階段。因此,公司需要引入新觀念、技術與產品,投資教育訓練、培養人才,始能夠讓分析系統落地生根,開花結果。

閱讀建議
在閱讀本書時,除了照作者所擬定的章節順序外,以及先熟悉第1章的概論外,依筆者個人的經驗,若想瞭解資料倉儲系統主要組成元素、或按軟體產品分類,可先閱讀第2章的資料倉儲、第7章的資料轉換、第9章的線上分析、第11章的資料採礦與第12章的工具。作者雖未專章強調「前端使用者介面」,但它們依然是需要實體採購建置的,或許你可以比較參照市面上的相關產品,以補充書中的不足。

而第3章的技術團隊、第4章的專案步驟、第5章的需求分析是一般專案開發與管理的範疇,你還需要佐以軟體工程的進一步理論。而第6章的資料模式、第8章的中繼資料與第13章的非技術問題則是商業智慧系統較其他系統需要深思的部份。

設定目標,分階段執行
商業智慧系統的最終目標是整合全公司、上下游供應鏈,乃至於各種市場分析的資料,讓每個人各取所需,不同層級的員工在作決策時,參考不同面向的資料。但不管是經費或效益評估,皆不可能一開始就以全面整合為目標。

因此,架構工程師需要能看到主架構的遠景,訂立系統進程,分階段引入不同的團隊、資料、產品與技術。主事者在不同階段都能夠提供具說服力的投資報酬率,分析系統才得以成長茁壯。

延伸閱讀
由於本書未談論實作的產品技術,筆者就微軟SQL Server 2005在此方面的相關資源稍作介紹:

● 《SQL Server 2005 資料採礦聖經》尹相志著 學貫行銷出版。
尹顧問有多年資料倉儲與資料採礦的經驗,也是在臺灣最先導入SQL Server 2005資料倉儲的人。在本書中,有詳細解釋 SQL Server 2005 所提供的資料採礦模型之原理與使用方式。

● MSDN Forum:此討論區內分門別類地提供SQL Server各項問題的解答,或許你的疑問,可以透過關鍵字在此找到答案。

● DB World 網站:在該網站上,有許多關於SQL Server 2005資料庫管理、開發以及資料轉換工具SSIS的文章。

《作者簡介》胡百敬
現任職恆逸資訊教育訓練處資深講師,聯合報系、睿智資訊與臺灣微軟技術顧問。著有《SQL Server 2005資料庫開發聖經》等書,並為專欄作家。

熱門新聞

Advertisement