Yahoo將釋出高達13.5TB的機器學習資料供學術研究

Yahoo宣佈將釋出高達13.5TB、號稱史上最大筆的機器學習資料開放給學術單位進行研究，並藉此提升自家大規模機器學習與推薦系統。

這筆資料為從2015年2月到5月間，來自2000萬名Yahoo用戶在多個頻道，包括Yahoo 首頁、Yahoo 新聞、體育、電影、金融及房地產等新聞服務蒐集的匿名使用者互動資料。資料包括使用者年齡區間、性別及一般地理區的人口類別資訊，新聞文章的標題、概要、關鍵字等。使用者互動資料還加上當地時間戳記以及讀取文章的部份裝置資訊。

Yahoo實驗室研究總監Suju Rajan指出，Yahoo重視與學術夥伴單位的開放合作關係，也希望藉此提升該公司機器學習與推薦系統的水準。獲得這批資料使用的學研單位包括卡內基美隆大學、加州大學聖地牙哥分校及麻州大學（UMass）阿瑪斯特分校資料科學中心。

參與計畫的UMass教授指出，該中心對於大資料領域開發高擴充性分析技術有很高的興趣，Yahoo釋出的資料將有助於他們在自然語言處理、資料檢索、資料庫與計算社會學的研究。

Yahoo Labs是在其Webscope資料共享計畫下釋出這批資料，這項計畫旨在將匿名化的使用者資料提供作為非商業性研究。Yahoo強調今天釋出的資料將會在遵循用戶隱私及資料防護的前提下進行。

這項消息多少能為Yahoo帶來一些正面氣象。去年華爾街日報報導，Yahoo一直陷於營運困境，導致董事會在去年底甚至考慮採取激烈手段來獲利，包括分拆銷售價值極高的亞洲資產阿里巴巴集團的持股，或是賣掉核心的網際網路事業。

熱門新聞