Google研究專家告訴你資料科學最重要的兩大關鍵

Google研究科學家紀懷新暢談過去研究維基百科、Google＋的失敗經驗，他體會到研究只有量測、統計還不夠，得進一步讓成果發揮效力，才能展現其價值。

圖片來源:

iThome

「資料科學中，最重要的就是量測（Measurement）跟效力（Impact）。」Google研究科學家紀懷新在臺灣資料科學家愛好者年會分享研究使用者行為多年心得時，一開場，他就特別強調這兩件事。

紀懷新曾在帕羅奧圖研究中心（PARC）擔任過首席科學家，專攻人機互動領域，目前是Google Play及社群平臺Google＋研究團隊領導者之一。他認為，量測是進行科學研究不可缺的要件，而現在無論是取得資料的難度降低，或是電腦分析工具的進步，都使得量測的門檻降低。

但是，紀懷新表示，許多人分析資料時，只因容易取得資料，卻沒有思考為何要拿這些資料來分析背後的真正目的，往往不易找到可以發揮效益的成果。紀懷新用3個例子，來說明他經歷兩次挫敗和一次成功的故事。

沒獲重用的維基百科成長趨勢分析

第一個故事是在2006年，紀懷新正在研究維基百科，他蒐集了所有文章的數量畫成分析圖表。他發現，維基百科在2001年至2003年，文章數量的成長狀況並不穩定，而度過2003年後，文章數量才開始按照指數模型（Exponential Model）穩定成長。

這樣的成長趨勢分析很容易得到，所以，紀懷新並沒有在此就打住，他更進一步計算文章編輯次數，以及編輯者的數量。他觀察到，從2001年開始，文章編輯次數、活躍編輯者的數量雖然都按照指數模型成長，但是到了2007年，兩者的成長趨勢開始停滯。

成長趨勢在2007年後無法用指數模型解釋，紀懷新參考另一個人口統計學中的羅吉斯成長模型理論來說明，該理論是用來解釋一個資源有限的地區，當人口成長趨勢到達該地資源的承載量（Carrying Capacity）後，人口數量將達到瓶頸，成長曲線也變得較平滑，而不是能夠不斷成長的指數模型，得修正為有飽和上限的羅吉斯成長曲線。

對研究者而言，找出解釋現象的規則是一大成就，他興奮地告訴維基百科團隊，對方雖覺得有趣，卻沒有重視他的研究成果，這讓當時的紀懷新感到失望。

Google +社群分析再度不受重視

後來紀懷新進入Google，剛好是Google投入社群平臺，推出Google＋剛起步時，他就被賦予重責大任：「研究使用者在Google＋中建立社群的行為」。

紀懷新盤點社群研究相關文獻，歸納出人們可以從社群中獲得滿足的兩大需求：資訊以及社交，想要提高社群活躍程度，就得同時滿足這兩大需求，除了加強成員社交圖譜（Social Graph）的連結外，也得讓使用者取得新資訊的難度降低。

為了評估Google＋社群是否有滿足使用者兩大需求，紀懷新總共分析了將近50萬個Google＋的社群，並且鎖定兩個分析重點：使用者間的連結數（Edges），以及資訊分享的活躍程度。

紀懷新表示，社群圖譜分析中常透過使用者間連結（Edges）所組成的三角形，來作為剖析該圖中社群互動程度，是頻繁或是稀疏的指標。

舉例來說，社群中若有3個使用者A、B、C，A認識B，而B又認識C，若從圖譜可以看到C也認識A，那就可以視為一個封閉三角形。因為一個三角形的三個點間，可以排列組合出6種具有方向性的互動連結，只要計算圖譜中的三角形數量多寡，乘以6倍就可以得知圖譜不同區域的連結數量，連結數量越多的社群，代表社交動能越強，反之，連結稀疏代表成員彼此間的互動不多。

紀懷新又進一步將社群人數規模和成員間連結數來繪製X-Y比較圖，試圖尋找這兩者間的關係曲線。

他表示，大多數社群都是成員越多，彼此的互動越頻繁。但有趣的是，有數個Google＋社群為離群值（Outlier），例如成員互動次數遠高於一般值的風景攝影社群，以及成員互動次數遠低於一般值的哈利波特愛好者社群。

不只如此，紀懷新也發現，幾乎所有的攝影團體，都出現類似風景攝影社群的超高互動特性，而電影、電玩相關的團體，也多符合哈利波特愛好者社群的超低互動特性。

但是，究竟要如何解釋這些特殊社群的存在意義，紀懷新使用廣場（Plaza），形容成員互動模式頻繁的攝影團體，雖然Google＋只是虛擬社群平臺，但是其模式仍跟真實世界有異曲同工之處，像攝影愛好者的團體，就相當符合社會科學中第三區域（Third Place）的概念：人群互相交談、獲得新資訊的場所，例如西方世界中的酒吧、理髮廳，或是臺灣過去的寺廟、廣場，「在這些地方所聚集的人群，連結是重要的社會機能。」所以，攝影愛好者這類社群的連結數量遠高於一般社群。

而哈利波特社群以及電玩社群則是另一種紀懷新稱為新資訊布告欄（Topic board）式的社群型態，以新資訊取得、交流為主。由於群組的功能主要是提供資訊，使用者在滿足資訊的需求後，「沒有必要跟社群成員進一步連結。」

不少人認為研究成果能量化，得到可以解釋的模式就夠了，但紀懷新不然，只透過數據驗證假說還不夠，還想進一步驗證他的想法是否正確。因為他認為：「資料科學的重點不是資料，重點是用科學的方式了解數據。」

為了驗證自己的理論，紀懷新也透過滾雪球取樣（Snowball Sampling），取得800多位使用者的回饋意見，才了解大部分用戶能符合紀懷新的研究假設：「一半滿足資訊需求，另一半使用者則是想拓展社交圈。」

用Google＋翻譯功能降低語言隔閡

得到使用者意見的支持後，紀懷新信心滿滿，認為這次Google＋的研究成果應該可以得到更大的重視，當他興奮地將研究報告呈交給Google的主管時，只得到美國文化中常見的客套答案：「這非常有趣」，但是都沒有任何後續消息。這樣冷淡的回應讓紀懷新再次感到挫敗。

他也從此領悟，除了提供研究成果還不夠，更重要的是讓成果產生實際效益，因此他決定，要以Google＋為起點，不只研究現象和理論，還要讓研究成果能用於改變人與人之間的溝通。

自小在美國生活的紀懷新，能體會與他人使用不同語言所產生的溝通障礙，例如當他在社群平臺分享貼文時，得為了不同國家的朋友準備不同版本的翻譯，否則很多朋友會不懂他所貼文章的意涵。

這件事讓紀懷新開始比對Twitter以及Google＋社群圖譜的國籍和語言差異，他發覺，相比Twitter，Google＋社群間的語言隔閡較大。進一步研究Twitter中具備雙語能力的使用者後，紀懷新觀察到，在Twitter中，前三大語言分別是英語、日語及葡萄牙語，而具備英語能力的使用者，其中不少比例同時也能使用西班牙文或葡萄牙文，「但是英語和日語的連結就相對比較弱。」因此，如果社群平臺具備翻譯功能，讓使用者能理解非自家母語的文章，就能更有效地串接不同母語的用戶。

因此他想：「如果我推出翻譯功能，是否有助於降低社群間的溝通隔閡？」恰好Google創辦人Larry Page正考慮是否該在Google＋中推出翻譯功能，決定讓紀懷新大展身手。

紀懷新想要做的是，讓Google＋系統自動翻譯，系統可以判斷瀏覽者慣用的語言，將文章內容自動翻譯成不同國籍的朋友都能看得懂的內容。

研究結果產生效力才是關鍵

在2013年8月，Google＋的翻譯功能正式上線，而Google進行了A/B實驗，評估翻譯功能對平臺的成效，短短一周，可以利用翻譯功能的使用者，除了貼文數增加2.49％，文章分享數更成長7.19％。

擺脫過去二次研究失敗的陰霾，直到推出Google＋翻譯功能，紀懷新才讓研究成果發揮威力。他強調，資料科學除了研究、統計外，更重要的是，讓研究結果應用於現實世界，才能展現其真正價值。「資料科學要銘記在心的重點是量測跟效力」，紀懷新說，不能只是蒐集資料、分析資料，還要讓分析結果真正發揮影響力。

熱門新聞