「在大資料應用中,最關鍵的是如何從資料中取得價值。」交通大學資訊工程學系教授曾新穆表示,近期的研究顯示,70%大資料應用上碰到的問題,仍然不離資料探勘的範疇。

而如何以資料探勘為基礎,逐漸走入大資料分析的應用架構 ?曾新穆解釋,首先要將蒐集的大量資料分類為結構化及未結構化,並透過文字探勘、資料探勘、機器學習以及統計學習等技術,建立出資料模型。

最後,結合這些資料模型與預測元件、應用程式模組,產出實際的預測模型或理解存在資料間的特定模式。

曾新穆解釋,大資料分析架構可分為以下5大步驟:取得資料、資料前置準備、資料建模、部署以及實際應用。

圖片來源:曾新穆

 

此外,曾新穆也列出在大資料應用中會碰上的問題以及挑戰,例如資料稀疏性、資料誠實度(Veracity)以及如何找出資料關鍵特徵等議題。

資料稀疏性

曾新穆用2006年舉辦的Netflix prize為例子,若參賽者能比Netflix影片推薦系統更加精準10%,便能贏得100萬美元的獎金。他表示,傳統的預測方法是採用協同過濾法(Collaborative filtering)。例如,若想要預測某個用戶對於一部影片的評價,可搜尋與此用戶行為模式類似的族群,並配合使用統計方法,對此客戶的評價行為進行預測。

但是Netflix的客戶清單龐大,此外,因為客戶無法對所有影片進行評價,進而使客戶名單與影片清單形成稀疏二維矩陣,產生資料稀疏性的問題,使協同過濾法難以在此狀況下使用。

獲勝的BellKor團隊為克服資料稀疏性的問題,改採用實際混沌(Pragmatic chaos)方法。他們觀察客戶資料,發現評價行為存在某些趨勢變化,例如某用戶在特定時間內給的評價都會很類似,經過一段時間後,評分模式又會產生改變。而他們綜合分析此類的行為模式,對用戶評價行為進行預測,成功達成比Netflix的推薦精準度高上10%的目標。

資料誠實度

雖然蒐集了許多資料,但是資料呈現的也非全是真相,有時候甚至會說謊,導致預測結果產生相當的偏誤。曾新穆舉Google flu trends服務為例,他表示,去年刊載在《Science》期刊的研究指出,Google flu trends在2011年後就開始失準,而2012年Google針對流感的預測,更比美國疾病控制與預防中心的實際統計數據還要多上兩倍。

經研究顯示,原因是出在資料誠實度的問題。在2011年推出Google flu trends後,許多沒有感冒症狀的民眾都去搜尋與感冒相關的關鍵字,導致無法反映現況的資料混雜在全部的搜尋歷史紀錄中,導致Google flu trends預測失準,「所以資料不是越多越好,而是真正找出符合我們需求的資料。」他表示。

找出資料關鍵特徵

大資料的特性為多重面向,而不同面向間互相存在著關聯,曾新穆表示,如何在實際應用中找出資料的關鍵特徵很重要。如Nokia在2012年舉辦Mobile data challenge競賽,找了上百位自願者,並分別贈送手機。而此支手機中內建著紀錄使用者一舉一動的應用程式,根據這些資料,Nokia擬定競賽題目,要求參賽者預測使用者會否出現在特定區域以及使用者的性別等難題。

他解釋,最原始的資料會產生數萬種特徵,但是手機無法處理如此複雜的運算,若要落實在真實應用中,必須找出其中的關鍵特徵,才能正確判別使用者的性別。

「後來經過我們的研究,只要找到一個關鍵特徵就可以了。」曾新穆的團隊發現,手機中的加速器可以作為性別判定的關鍵,因為男性與女性擺放手機的位置截然不同。男性通常把手機置於口袋,而女性通常放置於包包中,導致加速器蒐集的資料模式完全不同。而依據此關鍵特徵並藉合機器學習、資料探勘方法,曾新穆的團隊在預測性別上能高達95%的準確度。


Advertisement

更多 iThome相關內容