Yahoo宣佈將釋出高達13.5TB、號稱史上最大筆的機器學習資料開放給學術單位進行研究,並藉此提升自家大規模機器學習與推薦系統。

這筆資料為從2015年2月到5月間,來自2000萬名Yahoo用戶在多個頻道,包括Yahoo 首頁、Yahoo 新聞、體育、電影、金融及房地產等新聞服務蒐集的匿名使用者互動資料。資料包括使用者年齡區間、性別及一般地理區的人口類別資訊,新聞文章的標題、概要、關鍵字等。使用者互動資料還加上當地時間戳記以及讀取文章的部份裝置資訊。

Yahoo實驗室研究總監Suju Rajan指出,Yahoo重視與學術夥伴單位的開放合作關係,也希望藉此提升該公司機器學習與推薦系統的水準。獲得這批資料使用的學研單位包括卡內基美隆大學、加州大學聖地牙哥分校及麻州大學(UMass)阿瑪斯特分校資料科學中心。

參與計畫的UMass教授指出,該中心對於大資料領域開發高擴充性分析技術有很高的興趣,Yahoo釋出的資料將有助於他們在自然語言處理、資料檢索、資料庫與計算社會學的研究。

Yahoo Labs是在其Webscope資料共享計畫下釋出這批資料,這項計畫旨在將匿名化的使用者資料提供作為非商業性研究。Yahoo強調今天釋出的資料將會在遵循用戶隱私及資料防護的前提下進行。

這項消息多少能為Yahoo帶來一些正面氣象。去年華爾街日報報導,Yahoo一直陷於營運困境,導致董事會在去年底甚至考慮採取激烈手段來獲利,包括分拆銷售價值極高的亞洲資產阿里巴巴集團的持股,或是賣掉核心的網際網路事業。

熱門新聞

Advertisement