
1990年代晚期,網路迅速變成一個沒有規矩、冷漠而不友善的地方。垃圾訊息機器人(Spambot)灌爆許多電子郵件信箱,網路論壇一片狼藉。
2000年,剛剛從大學畢業、二十二歲的馮安(Luis von Ahn)想到了一個解決辦法:如果想要登記註冊,使用者必須先能夠證明自己是人。所以,他必須找到某件對人來說輕而易舉、但對機器來說難上加難的事。
他當時想到的點子,是在登入過程中辨識一些有波浪起伏、難以閱讀的字母。只要是人,幾秒之內就能夠破解這道題目,輸入正確的文字,但若是電腦就會被難倒。雅虎決定採用這種方法,結果在一夜之間,便減少了垃圾訊息機器人的危害。馮安把他的這項發明命名為Captcha。五年之後,全球每天大約要輸入二億則Captcha。
但馮安後來意識到,Captcha這種做法等於是讓全球數百萬人每天都要浪費大把時間,去辨識一堆彎曲煩人的字母、然後鍵入,且這些資料之後也都完全浪費掉。這時感覺起來,這方法就不太聰明了。
馮安希望能更有效率的運用人類的運算能力,於是想出了第二代的Captcha,前面加上了代表「再次」的字首Re,成為ReCaptcha。使用ReCaptcha的時候,不再是輸入隨機的字母,而是輸入兩個在谷歌圖書掃描計畫中、電腦的光學文字辨識軟體無法辨認的字詞。其中一個字是用來確認其他用戶已經輸入的結果,好確認另外輸入的那一位也是人;而另一個字則是真的還沒有辨識出來的新字。為了確保正確性,系統平均會將同一個模糊的字發給五個人,必須五個人的輸入都相同,才會確認該字已經正確辨識。這種資料除了有原始用途(證明用戶是人),還有第二個用途:協助解譯在數位化文本當中,模糊不清的字詞。
只要想想,如果聘請人工來辨識模糊不清的字詞,該要付多少錢,就知道 ReCaptcha能夠釋放出的價值相當巨大。如果估計每次辨識要花上十秒,全球每天二億個 ReCaptcha用戶,就代表著大約五十五萬個工時。在2012年,美國的最低工資是每小時七點二五美元。假設想請人來辨識這些電腦無法確認的字,每天就要花上四百萬美元,每年則要超過十億美元。但用了馮安設計的系統,幾乎是無償就能完成。靠著谷歌,現在 ReCaptcha已經免費提供給任何網站使用;全球大約有超過二十萬個網站使用,包括臉書、推特和Craigslist。
發掘資料的潛在用途
ReCaptcha的故事告訴我們重複使用資料的重要性。隨著巨量資料概念來臨,資料的價值正在發生變化。在數位時代,資料不再只是支援交易的角色,資料往往也成了交易的主角。到了巨量資料時代,事情再次發生變化。資料的價值不僅是現在的原始用途,也能轉移到潛在用途上。這件事影響深遠,會讓企業開始看重自己擁有的資料,並開始在乎有誰能夠使用這些資料。如此一來,也有可能會促成、甚至迫使公司改變商業模式。
資訊一直是市場交易必不可少的基礎。舉例來說,有了資料才能有價格發現(price discovery),讓生產者知道該生產多少數量。對於資料的這個面向,我們已經知之甚詳。另外,某些類型的資訊也早已在市場上交易,例如各種書籍、文章、音樂、電影的內容,或是像股票價格之類的金融資訊。在過去的幾十年間,還要再加上「個人資訊」一項。美國一些像是Acxiom、Experian和 Equifax的專業資料仲介公司,手中握有數百萬個消費者的完整個人資訊,便能換取可觀的利益。隨著臉書、推特、LinkedIn以及其他社群媒體平台興起,現在連我們的人脈連結、意見、偏好、日常生活模式等等,也加入所謂個人資訊之列了。
簡言之,雖然我們早已知道資料寶貴,過去卻只認為資料是經營核心業務的附屬品,又或是對資料的概念狹隘,只知道有智慧財產權或個資保護的概念。但是在巨量資料的時代,「所有資料」本身就有其價值。
這裡說的「所有資料」,還包括那些最原始、看起來最平凡的資訊,例如:工廠機器熱感應器的讀數,或者是某台貨車不斷即時傳回的GPS坐標、加速度感應器讀數及剩餘油量,又或是六萬台車隊全體的上述資訊;又或者,像是數十億個過去的搜尋字眼、好幾年來全美每架客機幾乎全部的訂位票價資訊。
這些資料,過去想要蒐集、儲存和分析都十分困難,大大限制了取得其潛在價值的機會。
現在這個時代的不同之處,在於蒐集資料的許多限制已不復存在。目前的科技進展,讓我們經常能取得大量資料,而且我們還常常能夠被動的蒐集資料,不用費心一一記錄,甚至有時候根本沒有意識到正在蒐集資料。而且由於儲存的成本大降,現在大可將資料全部收藏,不須因容納量有限而丟棄。這一切都使得我們能夠以更低的成本,取得比以往任何時候都更多的資料。
過去半個世紀中,數位儲存的成本大約每兩年便會砍半,而儲存密度更增加了五千萬倍。對於像是 Farecast或是谷歌之類的資訊公司來說,彷彿有一條數位生產線,一端輸入原始資料、一端輸出經過處理的資訊,資料儼然成為新的生產要素之一。
大多數資料的直接價值,詢問那些蒐集資料的人最清楚。甚至,那些人可能在蒐集資料之前,就已經想好了資料的用途。對店家來說,當然會想要蒐集銷售數據,做好財務會計。對工廠來說,會想監控產品,確保符合品質標準。對於網站來說,會想記下所有使用者的點擊、甚至滑鼠游標如何移動,好加以分析,決定該在網站的哪個位置為訪客呈現哪些資料。
這些都是資料的原始用途,也就是最初蒐集和處理資料的原因。但是,像亞馬遜不只會記錄使用者購買的書籍,還會記錄他們看過哪些頁面,正是因為亞馬遜知道,可以用這些資料來提供量身打造的閱讀建議。同樣的道理,臉書會追蹤使用者的「狀態更新」和「讚」,以確定應該在網站上呈現哪些最適合的廣告,好大撈一筆。
一般物質性的東西一旦使用,價值便會降低(像是吃掉食物、點燃蠟燭),但資料卻不同,可以一次又一次處理,價值並不會減少。資料就是經濟學家所謂的非競爭性(non-rivalrous)商品:某個人的使用並不妨礙他人的使用。而且,資訊使用後,也不會像物質性商品一樣有損耗。因此,亞馬遜不只可以用過去的交易紀錄,來向使用者提出建議,還能夠一用再用,除了用在那些一開始產生資訊的用戶身上,還能用到其他更多人身上。
資料除了能夠為同樣目的重複使用,更重要的是,還可以為了許多不同的目的而重複使用。我們想瞭解資訊在巨量資料時代究竟多有價值,就不能小看這一點。我們已經看到某些企業發揮了這種潛力,像是沃爾瑪就翻出舊結帳資料,找出颶風和小甜點之間的相關性,藉此大發利市。從這一切都可看出,資料能發揮的真正價值,會遠大於原始使用價值。這也意味著,企業取得資料後,即使第一次或後續每次使用都只得到少量的價值,但只要不斷重複使用資料,就能做到有效而充分的利用。
資料的「選項價值」
想感受一下,什麼叫做從「重複使用」而得到資料的最終價值,可以用電動車當個例子。電動車要成為新的交通工具,背後需要足以令人眼花撩亂的配套措施,而這一切都和電池的壽命有關。駕駛人希望能夠快速、方便的完成充電;電力公司需要確保既能提供電力給這些車輛,又不能使得電網不穩。對於汽油車來說,現在的加油站分布已經大致能符合要求,但是對於充電的需求、適當的充電站地點,就還未能參透。
出人意料,與其說這是基礎建設的問題,不如說是資訊的問題,而且巨量資料正是解決難題的重要關鍵。在2012年的一項試驗中, IBM與加州的太平洋煤電公司(PG&E)、車廠本田(Honda)三方合作,蒐集大量資訊來回答一些最基本的問題,像是電動車在何時何地需要充電、這對於電力供應會有何影響。
IBM開發了一套精密的預測模型,以多項資訊做為基礎:汽車的電池容量、剩餘電量、車的位置、當時幾點、附近充電站的可用餘位。另外,再搭配當地電網現在的用電量,以及過去的電力使用模式。分析了這些大量的即時資訊流,以及多個來源的歷史資訊,讓 IBM能夠幫助駕駛人找出最適合的充電時間和地點。
而且,IBM也就會知道最該在哪裡蓋充電站。這套系統還能夠考量臨近各充電店的價格差異,甚至是氣象因素。例如,如果是晴天,附近的太陽能充電站就能供應無虞,但如果已經連續下雨一星期,太陽能充電站就無用武之地。
這個系統所做的,就是先取得資訊、完成原始目的,接著再重複使用這些資訊,轉作延伸用途。因此,隨著時間過去,資料能夠不斷延伸應用,甚至會愈來愈有價值。例如,汽車的電量指示器告訴駕駛何時該充電,而電力公司則是從電網的使用資料,判斷該如何維持電網穩定;這些就是資料的原始用途。但在這之後,這兩組資料還能找到完全不同的延伸應用,發現新的價值,例如:決定何時該在何地充電、以及該在哪裡蓋電動車充電站。另外,由於電動車的耗電曲線不一,電網承受的用電壓力會不斷變動,IBM也不是只要處理資料一次就行,而是需要一再處理。
資料的真正價值,就像是漂浮在海上的冰山,第一眼看到的只有一小部分,有很大一塊都藏在海面之下。創新企業能夠看穿這一點,就能直取隱藏價值,獲得巨大利益。總之,要討論資料的價值,就必須考慮所有未來可能加以應用的方式,而不能只看眼前的用途。
或許,我們可以用物理學家看待能量的方式,來看待資料。
物理學家認為,就算是靜止的物體,例如壓緊的彈簧、放在山頂的球,也會有位能(potential energy),要在得到釋放的時候才會展現;像是把彈簧放開、或是把球一推而滾下山來。於是,這些物體的位能轉變成動能(kinetic energy),對其他物體施力。因此,資料完成原始用途之後,可以說它的價值仍然存在,只是靜止不動,就像彈簧或球一樣保存著位能,得等到再次使用,才會釋放出來。
到了巨量資料的時代,我們終於可以有這種看待資料的新想法、創意和工具,去挖掘出資料的隱藏價值了。
最後,資料的價值要看我們能如何用盡所有可能的方式來使用。能做的事情看似無限,終究需要做出選擇(option)。這裡講的不是金融證券的選擇權,而是真的要去選擇該做哪一項。資料的價值,就是所做選項產生的價值之總和,這也可以算是資料特有的選項價值(option value)吧。
在過去,一旦資料完成原始用途,我們常常就認為資料已經完成目的,似乎所有關鍵價值都已釋放完畢,可以放手刪除了。但到了巨量資料時代,資料就像一座神奇的鑽石礦,就算已取得主要價值,還是能不斷繼續開採。
要釋放資料的選項價值,有三種重要方式:重複使用資料、合併資料集、找到「買一送一」的情況。
選項價值之一:重複使用資料
講到資料重複使用的創新案例,搜尋字眼就是一個經典的例子。當初完成原始目的之後,這些資訊乍看之下似乎一文不值。畢竟,這似乎不過就是透過消費者和搜尋引擎互動,產生了一串網站名稱的列表,以及一些與當下相關的廣告。但到頭來,舊的搜尋字眼還是可以發揮極大的價值。
像是在資料仲介公司Experian旗下,就有一家網路流量測量公司Hitwise,能讓客戶從搜尋流量下手,來瞭解消費者的喜好。有了這項服務,行銷人員就能夠大致推測,今年春裝是粉紅當道、或是黑色重領風騷。
谷歌則把他們的搜尋字眼分析,公開了其中一個版本,讓人人都能使用。谷歌同時與西班牙第二大銀行BBVA合作,推出旅遊業的業務預測服務,並且販售以搜尋資料為基礎的即時經濟指標。英國央行則是使用與房地產相關的搜尋字眼,希望能進一步掌握房價的升降。
有些公司並沒有意識到重複使用資料的重要性,就會從慘痛的經驗中得到教訓。例如,亞馬遜早期曾與AOL(美國線上)簽署一項協議,讓亞馬遜能在AOL的電子商務網站背後,使用這種資料搜尋科技。對大多數人來說,這看起來不過就是個普通的外包協議。但亞馬遜的前任首席科學家韋思岸(Andreas Weigend)解釋,亞馬遜真正感興趣的,是要掌握AOL的用戶究竟看了什麼、又買了什麼,好讓亞馬遜改進自己的推薦引擎。可憐的AOL一直沒有意識到這一點,只看到了這些資料的原始用途(也就是銷售用途)。至於聰明的亞馬遜,則是知道只要把資料運用到延伸用途,就能取得利潤。
有些機構目前手中就握有大批資料,卻很少使用,譬如一般經營非線上業務的傳統產業。這些公司就像是空手坐在資訊的寶山之上,如果能夠瞭解重複使用資料的價值,必能得益良多。例如,有些公司可能會蒐集資料、使用一次(甚至用都沒用!),就全部放在一旁,再也不去使用。現在由於儲存成本低,這種情況常常發生,資料科學家便把這樣的資料儲存處,稱為資料墳場。
選項價值之二:重新組合資料
有些時候,想要釋放潛藏的資料價值,就必須與其他資料結合,甚至是和截然不同的資料結合。靠著用全新方式混合資料,就能達到創新。
舉例來說,2011年曾有一篇聰明絕頂的論文,研究手機究竟會不會增加罹癌率。丹麥癌症學會的研究人員設計了一個有趣的方法,使用的是過去所蒐集的舊資料。
首先,研究人員從行動通訊業者手中,取得自從手機引進丹麥之後的所有用戶資料,這裡用的是1987年到1995年的資料,排除企業用戶和其他社經資料不可得的用戶,最後共有358,403人。
另外,丹麥也有全國的癌症患者紀錄,從1990年到2007年的追蹤紀錄中,患有中樞神經系統腫瘤的病患共有10,729人。研究人員蒐集的最後一項資料,則是丹麥全國人口的最高學歷及可支配收入資訊。研究人員結合這三個資料集,希望看看手機用戶的癌症發病率,究竟是否真的高於不用手機的人?另外,在用戶之中,是不是用手機的時間愈久,就愈容易罹癌?
雖然這項研究聽起來規模宏大,資料卻完全沒有混亂或不準確的情況,因為像這種關於醫療、商業或人口統計的舊資料,原本就具有極高的品質。另一方面,蒐集資料的方式也不會造成對研究主題的偏見。事實上,這些資料的蒐集時間都已經是好幾年前,當時蒐集的原因也和丹麥癌症學會的這項研究無關。最重要的是,這項研究並不是根據某個抽樣樣本,而是接近「樣本=母體」:資料涵括了幾乎所有的癌症病例,以及幾乎所有的手機用戶,擁有手機的總時間達到380萬人年。正因為它幾乎納入所有案例,也就代表研究人員可以控制其中的子群體的變項,例如進一步分析高收入者的罹癌率等等。
最後,研究結果並沒有發現,任何使用手機造成罹癌風險增加的證據。當然也因為如此,雖然論文於2011年10月發表於英國醫學雜誌BMJ,但大眾媒體卻是一片靜悄悄。
在巨量資料時代,整體會比部分更有價值,而我們結合多個資料集的時候,最後的價值也會大於原本的各個資料集。現在的網路用戶都很熟悉基本的混搭(mashup)概念,也就是以新穎的方式,結合兩種以上的資料來源。舉例來說,美國的房地產網站 Zillow就是先取得房地產價格資訊,再結合當地的地圖來顯示。
此外,該網站也收錄像是最近成交的房屋物件規格、實際成交價格,經過處理之後,便能預測該地區特定房屋物件的價格。有了視覺效果,這種實價登錄的資料就讓人更容易閱讀理解了。
然而,巨量資料能做的遠遠不止於此。丹麥的癌症研究可說是給了我們寶貴的提示。(摘錄整理自第六章)

一般物質性的東西一旦使用,價值便會降低,但資料卻不同,可以一次又一次處理,價值並不會減少,也不會像物質性商品一樣有損耗。
大數據(Big Data)
麥爾荀伯格(Viktor Mayer-Schönberger)、庫基耶(Kenneth Cukier)/著
林俊宏/譯
天下文化出版
售價:360元
麥爾荀伯格(Viktor Mayer-Schönberger)
牛津大學網路研究所教授,並擔任微軟、世界經濟論壇等大公司和組織的顧問,是大數據(巨量資料)領域公認的權威,寫過八本書以及上百篇專論。
庫基耶(Kenneth Cukier)
《經濟學人》雜誌資料編輯,巨量資料思潮評論員,經常於《紐約時報》、《金融時報》、以及《外交事務》期刊發表財經文章。圖片來源/twitter.comkncukier
熱門新聞
2025-12-12
2025-12-12
2025-12-12
2025-12-12
2025-12-12
2025-12-12