劍橋分析在自家網站上,極力宣揚自己在2016年總統大選中如何利用資料科學、社交平臺等技術,來影響關鍵選民的效果。

今年3月底爆發的劍橋分析(Cambridge Analytica)醜聞鬧得沸沸揚揚,除了該公司不當取得臉書8,700多萬用戶的個資而受人撻伐,這家公司以投放假新聞、來影響美國政局的作法更遭人非議,甚至劍橋分析後來因此侵犯隱私爭議,而宣告破產。為何劍橋分析就算違法也要蒐集臉書資料,它如何利用這些臉書個資來左右廣大民意、甚至影響美國大選?

劍橋分析如何取得海量臉書個資

其實劍橋分析自2013年成立以來,就不斷在蒐集個人資料。該公司前CEO Alexander Nix曾公開表示,劍橋分析跟地政機關等不同單位購買個人資料,而個人資料範圍則涵蓋車輛資料、購物資料、禮金卡資料、會員明細,甚至還包括你看的雜誌、去做禮拜的教堂。

然而,劍橋分析能夠取得大量臉書用戶個資的關鍵源頭,得從2010年談起。當年4月,臉書開放了 Graph API 1.0,這是允許第三方業者、外部App開發人員來取得臉書用戶在臉書平臺上活動資訊的API,只要經用戶授權後,第三方就能存取用戶個資、數位足跡和個人喜好等,但更重要的是,開發人員還能一併取得這些用戶好友們的各種資料,而不需要進一步獲得這群好友的授權。這個API的權限設計,就是讓劍橋分析後來能夠取得大量臉書用戶資料的關鍵。

因為劍橋分析取得海量臉書個資的關鍵,與劍橋大學的心理學系教授Aleksandr Kogan有關。他在2014年時開發了一款心理測驗App名為thisisyourdigitallife,自己付款,透過Amazon群眾外包平臺Mechanical Turk,找了27萬名臉書用戶來玩這款心理測驗App。

不過,因為Graph API 的寬鬆存取政策,這款App不只取得27萬名用戶的資料,還包括他們的好友資料。臉書事後估計,這位教授取得高達8,700萬名用戶資料。雖然Kogan當時表明,這批用戶資料僅供學術研究之用,但他後來將這些資料轉賣給劍橋分析的母公司,也就是資料探勘公司SCL,而SCL又將這些資料交給劍橋分析,成了劍橋分析日後用來投放客製化的政治假新聞的關鍵資料來源。

只要有300個讚,電腦就能比你的配偶更了解你

不過,光有海量資料還不夠,劍橋分析為了要精準投放假新聞來影響投票決定,還必須先了解選民的個性才行。在選舉操作上,人格特質分析理論和技術早已相當盛行,劍橋分析自己也有一套預測選民特質的心理分析方法。

不過,2015年刊登在美國國家科學院院刊(PNAS)的一篇研究論文,引起了高度關注,更成了劍橋分析能夠影響美國大選的關鍵理論參考。史丹佛大學電腦科學家Michal Kosinski和劍橋大學心理系研究員Wu Youyou聯手,在2014年展開一項人格分析預測研究,想要利用電腦技術自動判斷人格特質,來和人類自填問卷的傳統作法相比較。

這項研究雖然以1980年代出現的傳統心理學OCEAN五大人格分析為基礎,但這兩位學者改用臉書按讚資料來建立一套自動歸類和預測人格特質傾向的模式,不只相當新穎,他們以電腦預測人格特質的作法,還比過往研究,更貼近自填問卷的結果,甚至有極高的預測準確度。

在這項研究中,研究員總共找來86,220名志願者參與,請志願者做 100道心理測驗題,並依此評定他們在IPIP五大人格量表中的分數。IPIP是以傳統心理學OCEAN人格分類法,將人格分為以下五類:開放性、嚴謹性、外向性、親和性,以及神經質。參與測驗的志願者,在每一性向都會得到一個反應其程度的分數,比如開放性2.1、嚴謹性4.2等。

有了IPIP性格分析的分數後,研究員再請這群志願者,玩一款臉書心理測驗App:myPersonality,經授權後取得他們臉書「讚」的資料,特別是他們對哪些人、事、物和議題按讚,比如跑步、跳舞或歐巴馬等,而研究人員也把讚的數量納入考慮。接著,研究人員列一個矩陣,將這些結果以0和1來表示。舉例來說,假設1號志願者對歐巴馬按讚,那麼對應的數字就是1。

有了這些數據和先前IPIP五大人格量表的分數,研究人員將志願者分成兩群,把90%的志願者資料作為訓練資料,建立數套LASSO線性回歸模型,然後以這些資料來訓練、優化模型。而其餘10%志願者的資料,則作為驗證用的實驗組,用來檢驗這些預測模型的準確度,而不列入訓練模型之用。

之後,研究人員根據其餘10%志願者臉書讚的數據(也就是從他們對哪些人、事、物按讚),來回推、預測這些人的IPIP五大人格分數。同時,研究人員也請這10%志願者的關係人,包括同事、家人、同居人和配偶等,來預測這些志願者的IPIP人格量表分數,然後再將電腦的預測結果,與這些關係人的預測相比,最後也跟志願者自填的數據比較,來看是電腦預測的比較準,還是實驗組的朋友的預測比較準。

研究結果發現,使用越多按讚資料來建立的模型,人格預測的準確度也越高。甚至,一個人只要蒐集到65個按讚紀錄,模型預測的準確度就和他的朋友一樣,若是蒐集到300個按讚記錄,電腦對實驗者的人格預測,則會和他的配偶一樣準確。也就是說,這套模型只要蒐集到300個以上的按讚記錄,就能比另一半更了解你。除此之外,這份研究報告還發現,這些模型對於一個人生活狀態的預測,也能有不錯的外部效度,也就是更擅長預測一個人的藥物使用傾向、政治立場和身體健康等。

這項研究一公布,作者之一的Michal Kosinski馬上接到兩通來自臉書的電話,一通是要對他提起訴訟,另一通則是要聘請他替臉書工作。這正好反映出,臉書對這份研究的高度重視,暗示不來幫我工作,我就要告你。

這項研究不只引來臉書關注,先前那位劍橋大學教授Aleksandr Kogan也曾希望取得Michal Kosinski的授權,讓他使用這套分析技術,但Michal Kosinski拒絕了。不過,Aleksandr Kogan後來還是以類似原理,來分析自己從thisisyourdigitallife心理測驗中、所取得的臉書用戶資料,而這套人格特質的預測模型,最後也隨著用戶個資,一起落入劍橋分析手中。

劍橋分析取得大量臉書個資後,也將新技術結合自家舊有的分析技術,加強OCEAN人格分析效用,來進行精準行為投放。劍橋分析前CEO Alexander Nix在2016年時說道,自家公司的人格模型,能給美國每位成年人建立人格檔案,「而且每個檔案都有4、5千個資料點」。他也表示,當時劍橋分析已建立美國2億2千萬個選民的檔案。

掌握了這些選民每一個人的情報之後,劍橋分析就能進一步開始針對不同區域和對象,來散播假消息,包括透過臉書、Twitter、YouTube或搜尋引擎廣告等,來試圖影響美國大選選情。

劍橋分析影響美國大選時間表

 2010年4月  臉書開放Graph API 1.0,允許第三方App,只要獲得用戶授權,就能存取該用戶好友群的個資,而不需逐一取得他們的授權。

 2013年12月  資料探勘公司 SCL成立劍橋分析公司。

 2014年  Aleksandr Kogan創立的資料分析公司GSR,開發一款心理測驗App,於2014~2015年蒐集2.7萬名臉書用戶資料和他們5千萬名好友圈的個資,再賣給劍橋分析母公司SCL。

 2014年3月  臉書開始緊縮Graph API權限。

 2015年1月  Michal Kosinski和Wu Youyou發表論文,指出臉書按讚數據可準確預測性格和偏好。

 2015年12月  美國共和黨總統參選人Ted Cruz雇用劍橋分析。

 2016年2月  劍橋分析前CEO自曝,助Ted Cruz在愛荷華州初選擊敗川普。

 2016年6月  劍橋分析轉而受雇於美國民主黨總統參選人川普。

 2016年7月  釋出川普支持者專用App,可用來分析、預測每戶人家的政治傾向和人格,以利拉票。

 2016年9月  美國大選第一次辯論時,出現8萬6千支Twitter 機器人帳號放消息,支持川普的Twitter帳號多達三分之一是Bot,而支持Clinton的Twitter帳號也有五分之一是Bot。

 2018年3月  前員工Christopher Wylie爆料,劍橋分析不當取得5千萬名臉書用戶資料以便投放假新聞,臉書事後統計影響人數多達8,700萬人

資料來源:iThome整理,2018年6月


Advertisement

更多 iThome相關內容