近日美國大資料權威專家麥爾荀伯格(Viktor Mayer-Schönberger)來臺分享大資料趨勢。他認為,大資料三大特性,是巨量、雜亂和相關性,而不是一般常見的3V(Volume、Velocity、Variety)定義。如何從這些看似雜亂無章的巨量資料中,找出最適合的相關性,並以此來改變決策,幫助我們更了解世界,正是企業和政府所面臨的新挑戰。

麥爾荀伯格早年曾是名程式設計師,年僅20歲就創立一家防毒軟體公司,推出的防毒軟體一度獲選為奧地利年度暢銷軟體之一。他在哈佛大學攻讀法律,並取得倫敦經濟學院經濟碩士,而後對於大資料領域有著深入且廣泛的研究,曾發表過上百篇專論和書藉,現為牛津大學網際網路研究所教授,專攻網路治理與法規,並著有《Big Data》(臺譯:大數據)等著作。

麥爾荀伯格認為,經過蒐集而來的大資料,往往具備有三大特性,第一就是擁有非常多的訊息量。

這邊所指的「多」代表的是具有一定規模的完整資料,可透過蒐集分析發現具有相關性的問題或現象。他以過去相機對焦為例,一般只有在對焦範圍內拍出來的人物輪廓才會清晰,但範圍以外的人物輪廓往往會是模糊的,但是改用一臺可先拍照後對焦的光場相機,就能先將所有人物資料完整紀錄下來,之後在決定照片要以誰為主角,也不需要花費時間重拍,還可以獲得更多有關照片的細節。麥爾荀伯格認為,盡可能蒐集越多的完整資料,也是同樣的道理,蒐集妥了以後再進一步決定用途。

麥爾荀伯格提出的大資料第二個特性是雜亂。相較於過去受限於測量能力的限制,能取得的資料往往不多,因此會注重資料的精確性。但是,當面對的是雜亂且複雜的大資料時,就不能再以過去傳統少量資料的方式去分析,而是要有新的作法。他說,大資料要求的並不是一點錯都無法容忍接受的精確資料,更多時候反而容許有測量誤差的資料,只要透過分析可以得出有用的資料,就不用為了那一兩棵樹而放棄一整座森林。

比起問why,大資料更看重的是問What相關性

至於大資料第三個特性則是相關性,麥爾荀伯格解釋,比起問「Why」的因果關係,大資料更看重的是問「What」的』相關性。「重要的是先了解,資料要告訴我們『什麼』而不是『為什麼」。他以美國知名零售商沃爾瑪當例子,當他們在進行大資料分析時發現,每當颶風即將抵達前,當地居民除了上超市去買手電筒和電池之外,還會買了一堆被稱為是Pop-Tarts的草莓甜點,這樣的發現也替沃爾瑪帶來龐大商機,至於顧客為什麼會買這些甜點就不是那麼重要了。同樣的道理,當亞馬遜和Netflix 在推薦顧客產品時,同樣也不知道為什麼要推薦這些書或DVD影片,只要知道顧客會買單就好。

另一個麥爾荀伯格舉的例子是語言翻譯。1950年代的美國電腦科學家,曾試圖透過文法規則讓機器大量翻譯俄語資料,花了12年時間投入近數十億美元,最終還是宣告失敗。當時,IBM也在個人電腦加入更多語句和文法規則,並以此成功翻譯了60個俄文短句,但因無法進行大量翻譯也告失敗,就算是在1990年時,IBM試圖透過新開發的統計機器來翻譯10年份的加拿大國會文件資料(含英法雙語),儘管的確改善了機器翻譯的品質,但最後因投入大筆資金卻無法得到相應成果,只好退出放棄。

反觀當時還是名不見經傳的小公司Google,成立僅僅不到10年時間就完成了這項不可能任務,推出了翻譯服務,而其採用的方式只不過就蒐集了幾千億筆的網路資料來分析,其中有包括歐盟語言、網站語言、書籍和說明手冊等五花八門的資料,儘管這些資料品質參差不齊,但透過彙整分析卻能翻譯出更為精確的語句。

麥爾荀伯格舉的最後一個例子則是早產兒診斷,Carolyn McGregor博士率領了安大略理工學院與IBM的研究人員,共同開發一套身體健康追蹤系統,可以即時追縱早產兒的健康資料,包括像是心跳、呼吸、體溫、血壓等身體症狀,並且每秒鐘會回傳1,260筆資料給醫生。醫生透過這套系統可經觀察細微媽媽體內嬰兒的身體變化,提早24小時前預測出是否為早產兒的可能性,以挽救更多的生命。後來Carolyn McGregor用大資料技術來分析這些資料後,還發現早產兒在嚴重感染前,反而生命跡象會有一段時間維持穩定,顛覆了過去一般認為早產而身體先惡化再感染的理論。倘若Carolyn McGregor只專注於研究身體惡化與感染間的因果關係,就無法得到這個發現。

從巨量機器假設找出最佳相關性

對統計學家來說,常見的研究流程是先有理論基礎,接著是提出假設,最後再透過數據來驗證,但在大資料上,麥爾荀伯格認為,原有研究流程變得不一樣了。以Google的作法來說,同樣都有一套理論基礎,但Google卻是透過程式自動建立了大量的機器假設(Machine Hypothesis),將所有可能的假設通通都放進來,再利用雲端運算技術一次處理高達4.5億個機械假設,從這些巨量的機器假設中找出最合理的相關性。

大資料核心價值:可重覆使用、重組資料,發現新價值

麥爾荀伯格更指出,大資料的核心價值,在於可以重覆地使用資料,而且是不斷地重組可能的使用方式。他說,過去人們會因為特定目的而蒐集資料,但在大資料時代,很多時候並不知道這些資料是否還有其他用途,像是「先拍照後對焦」的光場相機,往往是透過對巨量資料交叉分析後,才對資料運用有了新發現。就像裝在車上的感應器,除了可用來找出目前那一個地段最容易塞車,日本東京產業技術大學也曾在駕駛座位裝入360顆感應器,來蒐集駕駛坐在駕駛座上的動作,只有符合登錄臀部坐姿的駕駛才能發動車子,以此達到防盜功效。

又好比如說,Google曾經於2009年成功利用搜尋關鍵字來預測流感趨勢,但後來預測卻失準,麥爾荀伯格表示,最大原因就是沒有考慮到現實及人類行為環節的改變。而剛推出的Google Glass眼鏡,「其實Google真正的目的是要了解人們到底在看什麼?關心什麼?透過運用這些蒐集而來資料進一步去分析預測出消費者的行為。」他說。

荷蘭手機公司藉由販售天氣數據,開創新的事業

大資料不只可幫助企業內部決策,還可協助開創新事業。麥爾荀伯格以國外幾個大資料應用成果作為例子,像在荷蘭有一家手機公司面臨了低價競爭而無法獲利時,他們發現了自家所建造的基地臺訊號,無形中會因周遭環境氣候而改變,這個發現讓他們反而可以販售天氣數據,轉換跑道來開創新的事業。勞斯萊斯不只是汽車公司也是全球第二大的飛機引擎製造商,透過在大型客機內的噴射引擎,載入飛行管理系統來監控大量的引擎運轉資料,加以分析後能預測出引擎的壽命,勞斯萊斯並以此來提供預測性的維修服務。

美國零售商Target則是另一個典型的大資料應用,Target搜集了大量女性顧客的購物行為,運用大資料分析找出各種相關性,像是他們分析後發現,女性在懷孕三個月的時候,會開始購買某一類產品或對特定品牌產生忠誠度,像是無香味的乳液或各類營養補充品。反推回來,當女性開始出現這個行為時,也可以用來預測出女性是否已有懷孕跡象,甚至還能因此準確預測出小孩出生的日期。 

儘管透過分析演算,大資料可以用來改變決策的方式,創造出新的商業或經濟價值,甚至可作為預測人類行為的強大工具,但麥爾荀伯格也提醒,使用這些資料必須很小心,切勿忘記人有自由意志,一旦過度依賴這些預測資料,一方面可能發生像是在《一九八四》小說中無所不在的老大哥(Big Brother)監控,造成對個人隱私的侵犯。也可能作出不公平的預測,發生了如電影關鍵報告中還未犯罪就遭到逮補的情節。

他說,如何善加利用大資料和使用工具,去幫助人們更了解這個世界,是政府和企業所面臨的新挑戰。

2014/08/28更正說明:原文提及麥爾荀伯格年早年推出防毒軟體,曾一度獲選為「澳洲」年度暢銷軟體之一有誤,正確為「奧地利」。(內文已更正)


Advertisement

更多 iThome相關內容