Big Data權威：大資料問What比Why更重要

近日美國大資料權威專家麥爾荀伯格（Viktor Mayer-Schönberger）來臺分享大資料趨勢。他認為，大資料三大特性，是巨量、雜亂和相關性，而不是一般常見的3V（Volume、Velocity、Variety）定義。如何從這些看似雜亂無章的巨量資料中，找出最適合的相關性，並以此來改變決策，幫助我們更了解世界，正是企業和政府所面臨的新挑戰。

麥爾荀伯格早年曾是名程式設計師，年僅20歲就創立一家防毒軟體公司，推出的防毒軟體一度獲選為奧地利年度暢銷軟體之一。他在哈佛大學攻讀法律，並取得倫敦經濟學院經濟碩士，而後對於大資料領域有著深入且廣泛的研究，曾發表過上百篇專論和書藉，現為牛津大學網際網路研究所教授，專攻網路治理與法規，並著有《Big Data》（臺譯：大數據）等著作。

麥爾荀伯格認為，經過蒐集而來的大資料，往往具備有三大特性，第一就是擁有非常多的訊息量。

這邊所指的「多」代表的是具有一定規模的完整資料，可透過蒐集分析發現具有相關性的問題或現象。他以過去相機對焦為例，一般只有在對焦範圍內拍出來的人物輪廓才會清晰，但範圍以外的人物輪廓往往會是模糊的，但是改用一臺可先拍照後對焦的光場相機，就能先將所有人物資料完整紀錄下來，之後在決定照片要以誰為主角，也不需要花費時間重拍，還可以獲得更多有關照片的細節。麥爾荀伯格認為，盡可能蒐集越多的完整資料，也是同樣的道理，蒐集妥了以後再進一步決定用途。

麥爾荀伯格提出的大資料第二個特性是雜亂。相較於過去受限於測量能力的限制，能取得的資料往往不多，因此會注重資料的精確性。但是，當面對的是雜亂且複雜的大資料時，就不能再以過去傳統少量資料的方式去分析，而是要有新的作法。他說，大資料要求的並不是一點錯都無法容忍接受的精確資料，更多時候反而容許有測量誤差的資料，只要透過分析可以得出有用的資料，就不用為了那一兩棵樹而放棄一整座森林。

比起問why，大資料更看重的是問What相關性

至於大資料第三個特性則是相關性，麥爾荀伯格解釋，比起問「Why」的因果關係，大資料更看重的是問「What」的』相關性。「重要的是先了解，資料要告訴我們『什麼』而不是『為什麼」。他以美國知名零售商沃爾瑪當例子，當他們在進行大資料分析時發現，每當颶風即將抵達前，當地居民除了上超市去買手電筒和電池之外，還會買了一堆被稱為是Pop-Tarts的草莓甜點，這樣的發現也替沃爾瑪帶來龐大商機，至於顧客為什麼會買這些甜點就不是那麼重要了。同樣的道理，當亞馬遜和Netflix 在推薦顧客產品時，同樣也不知道為什麼要推薦這些書或DVD影片，只要知道顧客會買單就好。

另一個麥爾荀伯格舉的例子是語言翻譯。1950年代的美國電腦科學家，曾試圖透過文法規則讓機器大量翻譯俄語資料，花了12年時間投入近數十億美元，最終還是宣告失敗。當時，IBM也在個人電腦加入更多語句和文法規則，並以此成功翻譯了60個俄文短句，但因無法進行大量翻譯也告失敗，就算是在1990年時，IBM試圖透過新開發的統計機器來翻譯10年份的加拿大國會文件資料（含英法雙語），儘管的確改善了機器翻譯的品質，但最後因投入大筆資金卻無法得到相應成果，只好退出放棄。

反觀當時還是名不見經傳的小公司Google，成立僅僅不到10年時間就完成了這項不可能任務，推出了翻譯服務，而其採用的方式只不過就蒐集了幾千億筆的網路資料來分析，其中有包括歐盟語言、網站語言、書籍和說明手冊等五花八門的資料，儘管這些資料品質參差不齊，但透過彙整分析卻能翻譯出更為精確的語句。

麥爾荀伯格舉的最後一個例子則是早產兒診斷，Carolyn McGregor博士率領了安大略理工學院與IBM的研究人員，共同開發一套身體健康追蹤系統，可以即時追縱早產兒的健康資料，包括像是心跳、呼吸、體溫、血壓等身體症狀，並且每秒鐘會回傳1,260筆資料給醫生。醫生透過這套系統可經觀察細微媽媽體內嬰兒的身體變化，提早24小時前預測出是否為早產兒的可能性，以挽救更多的生命。後來Carolyn McGregor用大資料技術來分析這些資料後，還發現早產兒在嚴重感染前，反而生命跡象會有一段時間維持穩定，顛覆了過去一般認為早產而身體先惡化再感染的理論。倘若Carolyn McGregor只專注於研究身體惡化與感染間的因果關係，就無法得到這個發現。

從巨量機器假設找出最佳相關性

對統計學家來說，常見的研究流程是先有理論基礎，接著是提出假設，最後再透過數據來驗證，但在大資料上，麥爾荀伯格認為，原有研究流程變得不一樣了。以Google的作法來說，同樣都有一套理論基礎，但Google卻是透過程式自動建立了大量的機器假設（Machine Hypothesis），將所有可能的假設通通都放進來，再利用雲端運算技術一次處理高達4.5億個機械假設，從這些巨量的機器假設中找出最合理的相關性。

大資料核心價值：可重覆使用、重組資料，發現新價值

麥爾荀伯格更指出，大資料的核心價值，在於可以重覆地使用資料，而且是不斷地重組可能的使用方式。他說，過去人們會因為特定目的而蒐集資料，但在大資料時代，很多時候並不知道這些資料是否還有其他用途，像是「先拍照後對焦」的光場相機，往往是透過對巨量資料交叉分析後，才對資料運用有了新發現。就像裝在車上的感應器，除了可用來找出目前那一個地段最容易塞車，日本東京產業技術大學也曾在駕駛座位裝入360顆感應器，來蒐集駕駛坐在駕駛座上的動作，只有符合登錄臀部坐姿的駕駛才能發動車子，以此達到防盜功效。

又好比如說，Google曾經於2009年成功利用搜尋關鍵字來預測流感趨勢，但後來預測卻失準，麥爾荀伯格表示，最大原因就是沒有考慮到現實及人類行為環節的改變。而剛推出的Google Glass眼鏡，「其實Google真正的目的是要了解人們到底在看什麼？關心什麼？透過運用這些蒐集而來資料進一步去分析預測出消費者的行為。」他說。

荷蘭手機公司藉由販售天氣數據，開創新的事業

大資料不只可幫助企業內部決策，還可協助開創新事業。麥爾荀伯格以國外幾個大資料應用成果作為例子，像在荷蘭有一家手機公司面臨了低價競爭而無法獲利時，他們發現了自家所建造的基地臺訊號，無形中會因周遭環境氣候而改變，這個發現讓他們反而可以販售天氣數據，轉換跑道來開創新的事業。勞斯萊斯不只是汽車公司也是全球第二大的飛機引擎製造商，透過在大型客機內的噴射引擎，載入飛行管理系統來監控大量的引擎運轉資料，加以分析後能預測出引擎的壽命，勞斯萊斯並以此來提供預測性的維修服務。

美國零售商Target則是另一個典型的大資料應用，Target搜集了大量女性顧客的購物行為，運用大資料分析找出各種相關性，像是他們分析後發現，女性在懷孕三個月的時候，會開始購買某一類產品或對特定品牌產生忠誠度，像是無香味的乳液或各類營養補充品。反推回來，當女性開始出現這個行為時，也可以用來預測出女性是否已有懷孕跡象，甚至還能因此準確預測出小孩出生的日期。

儘管透過分析演算，大資料可以用來改變決策的方式，創造出新的商業或經濟價值，甚至可作為預測人類行為的強大工具，但麥爾荀伯格也提醒，使用這些資料必須很小心，切勿忘記人有自由意志，一旦過度依賴這些預測資料，一方面可能發生像是在《一九八四》小說中無所不在的老大哥（Big Brother）監控，造成對個人隱私的侵犯。也可能作出不公平的預測，發生了如電影關鍵報告中還未犯罪就遭到逮補的情節。

他說，如何善加利用大資料和使用工具，去幫助人們更了解這個世界，是政府和企業所面臨的新挑戰。

2014/08/28更正說明:原文提及麥爾荀伯格年早年推出防毒軟體，曾一度獲選為「澳洲」年度暢銷軟體之一有誤，正確為「奧地利」。(內文已更正)

熱門新聞