從Big Data雜訊中找出重要訊號

最早的資訊科技革命不是微晶片出現之後才來到，而是因為印刷術。約翰尼斯‧古騰堡（Johannes Gutenberg）一四四○年的發明，讓大眾得以獲得資訊，造成了思想紛呈，引起了預期之外的結果和難以預知的效果。這是一七七五年工業革命的起因之一。文明自出現以來原本少有什麼科技或經濟上的進展，到了工業革命這個轉折點，突然變成我們今天熟悉的急遽成長與改變。印刷術啟動了一些大事，後來造成了歐洲的啟蒙運動，以及美國共和政體的建立。

但是印刷術會先造成別的東西：數百年的聖戰。由於人類開始相信他們可以預測自己的宿命、選擇自己的命運，人類歷史上最血腥的時代便隨之而來了。

但是在這其中，印刷術還是開始造成了科學與文學的進步。伽利略分享了他（受到審查）的想法，莎士比亞創作出了他的劇本。

莎士比亞的劇本常常讓人想到宿命，就像戲劇一樣。讓這些劇本如此悲慘的原因，在於他的角色想成就的事跟宿命給他們的東西之間有著落差。掌控人的宿命這種想法，在莎士比亞的時代似乎已經成為人類意識的一部分──但還沒有能力達成這個目標。相反的，那些挑戰命運的人最後常常落得死亡的下場。

這些主題在《凱撒大帝》中探討得最為鮮明。整齣戲的前半段，凱撒收到各種明顯的警告訊號──他稱之為預測（「小心三月十五日」）告訴他，他的加冕大典會變成一場屠殺。凱撒當然忽視了這些訊號，堅持著這些訊號指的是別人的死亡──不然就是選擇性地看待這些證據。然後凱撒就被暗殺了。

「但是人總是照自己的意思解釋事情／完全錯失了這些事情本身真正的意義。」莎士比亞透過西賽羅（Cicero）的言語警告我們──有人想擷取新發現的大量資訊的話，這是很好的建議。要分辨訊號和雜訊是很困難的事。資料告訴我們的故事常常只是我們想聽到的，而我們常常會去確保故事會有個美滿的結局。

然而，如果《凱撒大帝》讓人想起古代對預測的概念──將之與宿命論、算命和迷信聯想在一起──這齣戲也會讓人想到更現代、總的來說更為根本的概念：我們可能會詮釋這些訊號，好讓我們可以從這些訊號得到好處。「有些時候，人是自己命運的主人。」卡修斯（Cassius）說，希望能說服布魯特斯（Brutus）參與對抗凱撒的密謀。

「人是自己命運的主人」這樣的想法開始廣泛傳播。預測（predict）和預料（forecast）這樣的字眼今天多半可以交互使用，但在莎士比亞的時代指的是不一樣的東西。預測是預言者對你說的話；預料則比較像是卡修斯的想法。

預料這個來自於英語的日耳曼語字根，預測不一樣，預測是來自拉丁文。做出預料通常意謂著要在不確定的狀況下做出規畫。這就表示必須要能深謀遠慮、有智慧、勤奮刻苦，比較像我們現在「遠見」（foresight）。

生產力矛盾

只要我們對資訊的理解程度比不上資訊的成長速度，就會面臨危險。人類歷史的最近四十年就顯示，把資訊轉化成有用的知識還是要花很長的時間，而要是不夠小心，我們也可能會倒退。

「資訊時代」（information age）這個詞並不是特別新。大約在一九七○年代晚期這個字開始廣泛使用。「電腦時代」（computer age）這個相關的詞更早開始使用，大約在一九七○年就開始了。大概就在這個時候，雖然電腦還不像家電用品那樣普遍，但在實驗室與學術界已經開始更普遍的使用電腦。這次不用花三百年，資訊科技就已經為人類社會帶來實質的利益。但也花了十五到二十年。

如保羅‧克魯曼（Paul Krugman）對我所說，「極大量的理論運用到極小量的資料上」的狀況在一九七○年代到達高峰。我們開始用電腦來產生世界的模型，但我們花了一些時間才認清這些模型有多麼粗略、充滿假設，電腦可以很精確，卻不能取代預測的準確性。這個時代從經濟學到流行病學的各個領域，大家都在大膽預測，也一樣常常失誤。例如一九七一年，有人宣稱十年內我們將有能力預測地震，四十年之後的我們卻都還沒有什麼進展。

相反的，一九七○年代和一九八○年代的電腦熱潮造成經濟與科學的生產力暫時性的衰退。經濟學家將之稱為生產力矛盾（productivity paradox）。經濟學家羅伯特‧索洛（Robert Solow）在一九八七年寫道：「你到處都看得到電腦時代，除了生產力的統計數字之外。」美國在一九六九年到一九八二年之間經歷了四次明顯的衰退，一九八○年代末期是美國經濟最強盛的時期，但對世界上其他地方的國家而言並非如此。

科學進展比經濟發展更難衡量。但是其指標之一就是專利發明的數量，尤其是相對於對研究發展的投資而言。如果孕育新發明變得比較便宜，就表示我們有明智地使用我們的資訊，將之打造為知識。如果變得更貴，就表示我們看到的訊號是雜訊，把時間浪費在錯誤的線索上。

一九六○年代，美國在每位美國發明家的專利權申請上花了大約一百五十萬美元（已依通貨膨脹調整）。然而這個數字在資訊時代初期上升而非下降，到一九八六年的高峰時倍增成大約三百萬美元。

隨著我們越來越明白新科技能為我們做到什麼，我們的研究生產力在一九九○年代也開始提高。我們誤闖的死胡同越來越少；電腦開始改善我們的日常生活，協助了我們的經濟。預測的故事講的常常是長期進步但短期衰退。但同時許多長期來看似乎可以預測的事又阻撓了我們精心策畫的計畫。

「巨量資料」的希望與困難

現在流行的詞是「巨量資料」（big data）。IBM估計，我們每天會生產兩百五十萬兆位元的資料，有超過百分之九十的資料是在過去兩年中製造出來的。

資訊幾何級數性的增長，有時被視為萬靈丹，就如一九七○年代的電腦一樣。《連線雜誌》（Wired）的編輯克里斯‧安德森（Chris Anderson）在二○○八年寫道，光是資料的量就可以免去對理論的需求，甚至連科學方法都不必了。

本書顯然擁護科學和科技，而我也認為這是本非常樂觀的書。但本書的主張是：上面這些觀點錯得離譜。數字沒辦法為自己講話。是我們在為它們說話。我們賦予它們意義。就如凱撒一樣，我們可能會用對自己有利的方式來解釋資料，讓資料脫離客觀的現實。

以數據為導向的預測會成功──也會失誤。如果我們否定自己在這個過程中扮演的角色，失誤的機率就會提高。在我們對資料做更多的要求之前，我們必須先多要求自己。

如果你知道我的背景，我這樣的態度可能會讓人吃驚。我處理資料和統計數據，用這些來成功預測，因而博得名聲。二○○三年，我因為厭倦顧問的工作，所以設計了一個叫做PECOTA的系統，試圖預測大聯盟球員的統計數據。這個系統有一些創新之處──例如，系統的預測是用機率的方法，為每位球員標出一個範圍內的可能結果──我們比較各家系統的結果，發現我們的系統比對手的系統表現更好。二○○八年，我成立了五三八網站（FiveThirtyEight），試圖預測即將到來的大選。五十州之中，五三八網站正確預測了四十九州的總統大選獲勝者，以及全部三十五席美國參議院議員選舉的贏家。

大選後，有一些出版商跟我接觸，他們想找《魔球》（Moneyball）和《蘋果橘子經濟學》（Freakonocomics）這樣的書，想從中獲利。這種書講的是書呆子征服世界的故事。他們認為本書走的也是這樣的路線──研究以數據為導向的預測。

但我為了從事我的研究，在四年內和十幾個領域、超過一百位的專家談過，閱讀數百篇期刊文章和書籍，到處旅行，從拉斯維加斯到哥本哈根，我逐漸明白，巨量資料時代的預測進展並不順遂。在幾個層次上，我一直很幸運：首先，雖然我犯了很多我後面要敘述的錯誤，但我還是獲得了成功；而其次，我選對了戰場。

本書提供了一些其他有希望的例子。氣象預報牽涉到人類判斷力與電腦能力的結合，也是其中之一。氣象學家名聲不好，但是他們已有顯著的進展，他們預測颶風登陸的位置比起四分之一個世紀之前準確三倍。同時，我也見了撲克玩家和運動賭徒，這些人真的能打敗拉斯維加斯。還有打造IBM深藍電腦（Deep Blue）的電腦程式設計師，這部電腦曾經打敗世界西洋棋冠軍。

但是這些預測有所進步的案例必須用一連串的失誤來權衡。

如果有什麼可以用來定義美國人、有什麼讓我們與眾不同，那就是我們相信卡修斯的想法，認為我們可以掌控自己的宿命。

但是這個全新的千禧年卻給了美國人一個可怕的開始。我們沒有預見九一一攻擊的到來。問題不在於缺乏資訊。就像六十年前珍珠港事變的狀況一樣，所有的訊號都在。但是我們沒有把訊號整合起來。我們缺乏適當的理論來說明恐怖分子會怎麼行動，所以我們對資料視而不見，恐怖攻擊對我們就成了「未知而不自知」（unknown unknown）。

最近的全球金融危機也是普遍的預測失誤。我們輕易相信模型，沒有體認到我們所選擇的假設有多麼容易影響到這些模型，結果損失慘重。同時，就較為一般的基準來看，我發現我們沒辦法在幾個月之前就提前預測到經濟衰退，而且不是因為不夠努力。雖然在控制通貨膨脹方面已有相當的進展，但我們的經濟政策決策者卻盲目行事。

最近就像一九七○年代那樣，地震預測重新興起，大部分的預測都是使用高度數學化和以數據為導向的技巧。但是這些預測設想的地震都沒有發生，有發生的地震也沒有讓我們做好準備。福島核子反應爐設計來對抗強度八‧六級的地震，一部分是因為某些地震學家推斷不可能發生比這更大的地震。結果二○一一年三月日本就出現了九‧一級的恐怖地震。

巨量資料一定會造成進步──最後還是會的。但速度有多快，以及我們會不會又退步，就要看我們了。

為何未來令我們震驚

人類擁有的自然防衛不多。我們速度沒有那麼快，也沒有那麼強壯。我們沒有爪子或尖牙或是身體的保護層；我們不會吐出毒液；我們沒辦法用偽裝遮掩自己；我們不會飛。但是，我們憑藉著我們的智能活了下來。我們的心智靈活，天生就會找出模式，能對機會與威脅毫不遲疑地做出回應。「這種找出模式的需求，人類比其他動物更需要。」湯馬索‧波吉歐（Tomaso Poggio）這樣告訴我，他是麻省理工學院的神經科學家，研究我們的大腦如何處理資訊。「要在艱困的情境中辨認出物體，表示需要歸納。新生兒可以辨認出臉孔的基本形態。這是經由演化才學會的，不是靠個人。」

波吉歐指出，問題是有時候在模式其實不存在的情況下，這些演化的本能會左右我們，讓我們看見模式。「大家都會這樣，」波吉歐說，「在隨機的雜訊中找到模式。」

人類的大腦相當卓越，可以儲存大約三TB的資訊。然而據IBM所說，這只是現在全世界每天所生產資訊量的百萬分之一。所以對於我們要選擇記得的資訊，我們必須極為審慎。

艾爾文‧托夫勒（Alvin Toffler）一九七○年在《未來的衝擊》（Future Shock）一書中，對於他稱之為「資訊超載」（information overload）的現象做了一些預測。他認為，即使這個世界本身越來越多元、越來越複雜，但我們的防禦機制會把這個世界簡化，以確認我們的偏見。

我們的生物本能在這個資訊豐富的現代世界調適得不是很好。除非我們主動努力，去察覺我們的偏見，不然額外的資訊給我們的回報可能會很少──或是減少。

印刷術問世後的資訊超載造成了更嚴重的宗派主義。這些不同的宗教觀念現在可以用更多的資訊、更高的可信度、更多的「證據」來證明──對異議的包容則變少。同樣的現象似乎也發生在今日。大概在托夫勒寫《未來的衝擊》的同時，政治的黨派偏見在美國開始非常快速地增加，而隨著網際網路的到來，速度增加得更快。

更多的資訊可以引領我們更接近真理，但黨派偏見的信念可能會顛覆這樣的等式。最近，《自然》期刊上的一篇研究發現，有強烈黨派傾向的人如果對全球暖化了解得越多，彼此間的看法就越難一致。

同時，資訊量每天都增加兩百五十萬兆位元組，有用的資訊量卻幾乎沒有增加。大多數的資訊都只是雜訊，而雜訊增加得比訊號更快。有太多的假設要驗證，有太多的資料要挖掘──但客觀的事實卻只有相對固定的量。

印刷術改變了我們犯錯的型態。抄寫常見的錯誤變得比較少見，但只要有錯，就會被複製非常多次，就像《邪惡聖經》的狀況那樣。

像全球資訊網這樣的複雜系統就有類似的性質。這些系統不會像比較簡單的系統一樣常出錯，可是一旦出錯就會錯得離譜。資本主義與網際網路在宣傳資訊方面都效率驚人，不過在散播好思想的同時，卻也都為壞思想創造出散播的機會。壞思想可能會造成不成比例的效果。在金融危機之前，金融體系就受到極大的影響，以至於信用評等機構的模型中一個不嚴謹的假設就發揮了極大的作用，拖垮了整個全球金融體系。

管制是解決這些問題的途徑之一。但我懷疑，管制只會變成藉口，用來避免我們在自己身上找答案。我們必須要停下來承認：我們有預測上的問題。我們都愛預測，但我們都不是很擅長。

預測的解決之道

如果預測是這本書的核心問題，那麼預測也是解決之道。

預測對我們的生活而言不可或缺。每次我們選擇上班的路線、決定要不要去第二次約會、或是存錢未雨綢繆，我們都在預測未來會如何進行──還有我們的計畫會如何影響我們喜歡的結果出現的可能性。

這些日常的問題不是全部都需要努力思考；我們安排給每個決定的時間只有這麼一點。然而，不管你有沒有發現，你每天都做了許多次的預測。

因此，本書將預測視為一種共同的事業，而不是某些特定的專家或從業者的職責。專家預測失準的時候，取笑他們是件有趣的事。然而，我們應該要小心我們自己的幸災樂禍。如果說我們的預測不會比專家的預測差，其實也只是對我們自己嚴重的明褒暗貶。

不過在科學中，預測確實扮演了特別重要的角色。有個前提我不斷在暗示，現在我要明講了，你們之中的某些人可能會感到不快：我們永遠都不可能做出完全客觀的預測。預測永遠都會受到我們主觀看法的影響。

但要強調的是，本書反對「沒有客觀的真理」這種虛無主義的觀點。更確切地說，本書是在主張：相信有客觀真理──以及致力追求客觀真理──是做出更好預測的首要條件。預測者下一個要致力的目標，是明白自己對客觀真理的認識並不完美。

預測之所以重要，是因為預測連結了主觀與客觀的現實。卡爾‧波普（Karl Popper）是位科學哲學家，他就認同這個觀點。對波普來說，一個假設，除非可以被證明為偽，不然就是不科學的──也就是說，這個假設要能夠用預測的方法在現實世界裡接受檢證。

會讓我們猶豫的是：我們檢驗過的一些想法表現並不好，而我們有很多想法不曾受到、或根本無法驗證。在經濟學上，比起刺激消費的效果，對失業率的預測比較容易驗證。在政治學上，我們用來預測選舉結果的模型可以檢驗，但是改變政治制度對政策會有何影響的理論，可能要花上數十年才能驗證。

我不會像波普那樣，主張這樣的理論就不科學，或是一點價值都沒有。然而，少數我們可以檢驗的理論所得的結果相當差勁，這種狀況就表示許多我們還沒驗證過的想法也一樣會大錯特錯。我們無疑是活在許多錯覺之中，卻不知不覺。

從印刷術的時代至今，世界已經走了很長一段路。資訊不再奇貨可居；我們擁有的資訊多到我們不知道該怎麼處理。但是只要把資訊量變得稍微少一些，資訊是很有用的。我們選擇性、主觀地去理解，卻很少自我關注，沒有發現這樣做所引起的扭曲。我們以為自己想要資訊，但我們真正想要的是知識。

訊號就是真理。雜訊會使我們分心，遠離真理。這本書談的就是訊號與雜訊。（摘錄整理自前言）

精準預測──如何從巨量雜訊中，看出重要的訊號？
（The Signal and the Noise）

奈特．席佛（Nate Silver）／著；蘇子堯／譯
三采文化出版
售價：500元

我們永遠都不可能做出完全客觀的預測。預測永遠都會受到我們主觀看法的影響。

奈特．席佛
（Nate Silver）

他精通統計學，是美國當代知名的統計與預測鬼才。他從小就對數字與思考展現興趣與天分，六歲便開始預測棒球賽事。高中時代曾拿過密西根州辯論冠軍，後來進入芝加哥大學主修經濟學，並在大三前往倫敦政經學院研修一年。《時代雜誌》將他列入「世界最有影響力的百大名人」。許多人對於他的統計模型與精準預測的技術都十分折服與好奇，本書是他首度公開自己的預測祕訣，以及他對各領域預測的研究與思考。

熱門新聞