痞客邦將上億篇部落格文章和百億筆Log瀏覽記錄放上雲端來打造出一個大資料分析工具PIXinsight,可提供各種趨勢分析應用,例如最新推出了口碑民調中心的網站,可呈現不同候選人受關注的程度。

痞客邦(Pixnet)是臺灣最大的部落格平臺,擁有450萬會員人數,在Alexa臺灣網站排名,痞客邦排名僅次於臉書、Google、Yahoo是臺灣第4大網站,每日會員產出的文章數量高達35萬篇,累計至今超過了3億篇的文章和4億多張照片。

為了分析這些文章、會員發文和使用者瀏覽行為之間的關連,就像傳統銀行集中大量交易資料建立資料倉儲來進行進階分析一樣,痞客邦也將數億篇文章跟數百億筆瀏覽行為的網站Log資料集中到資料倉儲中來分析,但是痞客邦卻沒有像銀行那樣將資料搬回企業機房,反而是集中到了Amazon的Redshift雲端資料倉儲(Data warehouse)服務。

痞客邦創辦人暨執行長朱皇韋表示,過去痞客邦主要是將檔案儲存在Amazon S3雲端儲存服務,例如使用者網路瀏覽行為的Log檔案內容,儘管為了避免個資使用爭議,這些資料都採取了去識別化處理只保留了基本數據,像是使用者在哪個時間點,瀏覽什麼樣的文章,使用何種瀏覽器等,但仍舊是一批龐大的資料。

原本痞客邦想沿用網站後臺所用的資料庫系統MySQL來分析,但將資料集中到MySQL來進行處理龐大的巨量資料時效能不佳,甚至慢到可能會影響原本的網站服務,而後才將分析性資料轉移到Redshift雲端資料倉儲來進行延伸應用。朱皇韋表示,Redshift是一個已經準備好的雲端儲存服務,相較於自行建置整套資料倉儲,不僅建置時間短,前期建置成本也相對較低。

另一個採用原因是,朱皇韋表示,對IT人員而言,因為Redshift跟MySQL兩者語法都很類似,不用額外再學另一套軟體就可以輕鬆上手,在操作上無縫接軌,此外,Redshift也擁有更大的儲存空間,可以大量儲存資料,甚至穩定性上, Redshift也比MySQL更高要來得穩定。

混用Redshift和MySQL分級處理資料

不過,痞客邦一開始導入時卻發現,在效能上,Redshift表現上並沒有原先預期的好。直到後來,朱皇韋遇到來臺拜訪的Amazon技術人員後,才知道痞客邦運用Redshift的方式錯了。

朱皇韋解釋,Redshift最大的功用是儲存,因此具有相當快的寫入讀取時間,但因「更新」效率不佳,因此當遇到要更新儲存資料時,對系統處理負擔拖慢系統處理效能,尤其是不斷地將資料反覆更新,就會使得系統效能降低。而這也是資料倉儲和傳統資料庫使用上的不同之處。最後,朱皇韋改變了資料儲存邏輯,將更新的資料直接寫入成新的一筆資料,不再覆蓋原先的資料而解決問題。

不過,朱皇韋也表示,他們建置系統底層時,並非全採用Redshift作為資料儲存方式,而是同時使用Redshift與MySQL搭配,這樣的好處在於可交互使用來提升效能。像是頻繁更新的資料存放在MySQL上,而較完整不易更動的分析資料則可存放在Redshift。以部落客文章編輯更新來說,痞客邦的作法是,會先更新在MySQL,等到1至2天後,再更新一次到Redshift上,讓Redshift與MySQL發揮互補的作用。

而目前痞客邦網站的資料,主要還是存放在MySQL上,只有需要分析的資料才轉移到Redshift上。這些分析資料是以痞客邦內部的資料為主,包含文章的內容,以及文章瀏覽的行為。

改善部落格文章推薦機制,加入更多樣的使用需求

而這些使用者的使用行為,亦可協助痞客邦提供既有功能及應用改善,朱皇韋也舉部落格為例,原先在每個部落格文章下方,都會加入推薦「更多文章」功能,過去這些推薦機制,只提供和使用者瀏覽主題相關的文章,但經過大資料分析,找到使用者的使用行為後,現在已經可以做到推薦使用者喜歡看的文章,或從過去看過的文章,找出使用者可能會有興趣的文章。

甚至也會經由分析每篇文章和文章之間,觀看讀者之間的關聯性,以此找出更多的附加應用價值。

而隨著大資料分析帶來商機,成為許多企業公司進一步加值利用的工具,朱皇韋也說,以痞客邦來說,從2003年發展迄今已經超過10年,總共生產出3.5億篇文章與4.5億張的照片,這樣一個龐大的資料量,如何從這些資料當中找到更多有用的附加價值,也成為必然一個發展趨勢。

用PIXinsight大資料分析工具,推網路關鍵報告服務

而目前在痞客邦內部使用到大資料分析服務,主要是以網路資訊洞察平臺PIXinsight為主,它是一個由痞客邦自家開發的大資料分析工具,由它所分析出來的資訊,可提供給部落格、相簿等既有產品作為附加價值延伸,也能透過分析過去文章的內容和使用者的使用情境,提供像是《Pixnet網路關鍵報告》服務,讓大家知道網路界也有這樣的聲量。這些分析都是由公司專門團隊來負責,裡頭包括有統計、資料、社群專家數十人共同來研擬各種議題的方向。

不過朱皇韋也表示,目前PIXinsight採用是和媒體合作的方式來去運作,但未來是否有機會發展成為公司業務銷售的一環,還得看未來市場的反應。即便如此,但朱皇韋也表示,大資料分析已經成為公司內部的核心價值。

而在大資料分析過程中,痞客邦不只找出使用者的使用行為,也提供可作為增加產品優化的方法,甚至有時透過這些使用者行為的大資料分析,有時也能找到意外發現,朱皇韋也舉女性喝下午茶為例,過去對下午茶的認知可能偏向於女性的專利,但在經過分析超過3億篇「下午茶」的部落格文章,也意外發現自「自助式下午茶」推出後,愛喝下午茶的男性也明顯增加,甚至,還因而超過某些年齡層的女性。

對初期在嘗試各種專案的企業來說,朱皇韋也認為,使用Redshift雲端儲存服務可節省成本,因為當公司遇到處理的資料規模很大,但尚未有一個確定雛型時,這時貿然的採購設備,可能將承擔相當大的風險,痞客邦也因為看到這點,初期才選擇以雲端服務來做儲存平臺,等到發展到一定規模程度時,才接著考慮自建或改用其他符合需求的資料倉儲。

但朱皇韋也認為,資料倉儲並非一定得放在雲端,而是得個別來看,若是以強調價格導向的公司,初期使用雲端資料倉儲,反而可以替公司省下不少設備成本花費,但如果是強調個資保護,則可選擇採用自建機房的方式。但以痞客邦來說,即便初期選擇了Redshift,但朱皇韋也表示,未來當要分析一些較隱私資料時,也不排除採用自建方式建立資料分析和儲存的空間。

 

痞客邦創辦人朱皇韋表示,採用亞馬遜的Redshift雲端資料倉儲,在操作上可和MySQL無縫接軌也輕易上手,並擁有更大儲存空間和更快的寫入讀取速度,能分析大量資料。

 

相關報導請參考「資料倉儲上雲端」


Advertisement

更多 iThome相關內容