當許多企業都對大數據分析展現高度興趣,而想要建置Hadoop平臺時,身為企業顧問的勤業眾信會計師事務所風險管理部副總經理曾韵指出,很多企業也想要搭上風潮用Hadoop來分析資料,然而,資料分析最關鍵的是找出對的問題,並利用領域知識,才能挖掘出資料內含的意義,若只強調分析工具,並無助於解決問題。

在今年臺灣資料科學愛好者年會中,曾韵用一張僅是標註客戶總購買金額和優惠程度的圖表,來說明如何調查公司內部是否發生舞弊的情況,她說,其中第一種客戶稱為「財神爺」,也就是和購買公司產品與服務的金額很高,但是要求的折扣卻不多,還有一種客戶,他們購買的總金額不高,且要求折扣也不多,第三種則是購買的總金額偏高,但是要求的折扣也多,對企業來說,利潤就變得相當稀少。

最後一種客戶,對於舞弊偵防人員來說必需要深入了解,因為,這些客戶購買的金額偏低,但是公司給的折扣卻很多。曾韵說,當初到該企業董事會報告此事時,「董事會成員吵成一團」,並牽扯出一些利益糾葛,以重新檢視公司的經營情況。

透過客戶總購買金額和優惠程度,就可以幫助會計師找出企業內部異常情形,然而,會計師過往都是用抽樣調查,導致大部分都只找到數量最龐大,但購買金額最低的客戶,而難以發現購買金額小卻享有高折扣的客戶。

此外,當企業之間競爭日趨白熱化,也出現企業內部資料被竊取的情況,到底是誰在偷資料?就成為企業急於想要知道事情。曾韵指出,最重要的不是用什麼分析工具,而是需要解該企業內部運作,一旦了解公司的營運狀況,就可以利用很簡單的圖表,來分析出很多異常的情況,才能透過分析資料,來找出異常之處。

舉例來說,曾韵就透過檢查高科技公司的員工VPN帳號,來判斷哪一位員工下班後透過VPN來存取資料,她說,要進行資料分析,最困難的步驟不是分析資料,而是處理資料。而企業最關注的就是知識管理系統(Knowledge Management,KM)的登入情形。

不過,企業內部通常只有存取的帳號和時間,若員工在企業外部存取資料,只能透過IP位址,再利用IIS Log分析,以猜測到底是誰在存取資料,她說,這就是最痛苦的地方。

分析資料後發現,她說,最有問題的有員工機密檔案存取的次數很多,但都是針對特定檔案,也有員工明明在公司,卻還要用VPN來存取資料,曾韵說,現在許多高科技公司進行挖角的時候,會請工程師到咖啡廳面談,員工就在過程中開啟了公司內部的資料。另外,也有員工經常在下班時間,才開始用VPN,這都是公司需要檢視的地方。她說,透過此分析圖表,該高科技公司找出4至5位竊取公司資料的員工。

而在勤業眾信會計師事務所中,風險管理人員又如何幫自家公司解決問題?曾韵說,目前會計師事務所中,最大的問題就是員工離職率高。由於,會計事務所中工作繁重,且上班時間長,許多新鮮人進入公司累積1至2年經驗後,就另謀他職。

然而,對於事務所而言,花了大把時間訓練與栽培員工之後,員工一旦離職,又要重頭訓練新人,因此,對於事務所是相當大的傷害。

為了降低事務所的損失,曾韵帶領的風險管理部門研發出了一套預測員工離職的模型,初期主要進行專案訪談,了解員工離職的原因,與未來員工招募走向等,再來整理數據,曾韵說,整理資料就是建置模型最困難的地方,資料不但都分散在各個部門,且需要大量需要蒐集員工各式各樣的相關資料,如年齡、學歷、薪資、加班費、請假狀況等,若數據缺失,還要進行補齊。最後透過製作出預測模型,來幫助事務所解決問題。

曾韵強調,要進行資料分析,不一定需要用到大數據分析,才有辦法提高公司營運效率等,而是要先釐清資料分析的目的,再選擇用什麼分析工具來協助公司解決問題。

而對於想要踏入風險管理領域的新鮮人來說,曾韵也提出建議,第一步就是要學會運用Excel,再來慢慢接觸其他的進階分析工具,如Weka、Knime,或再進階才用R語言與Python來寫程式。


Advertisement

更多 iThome相關內容