如何強化自家數據基礎建設及作業流程,來強化推薦、搜尋,乃至數位行銷功能,是現在電商爭相強化的核心競爭力。一家電商如何善用自家數據,已經不是易事。不過臺灣零售業界中,有家企業早已利用上百家電商數據,結合國際級搜尋引擎開發功力,來打造自家核心服務。
這家企業就是經營著大型比價網飛比價格的第一網站,藉由跨電商比價功能,吸引消費者造訪,再利用人流量及消費者數據,經營廣告聯播網、廣告代投等數位行銷服務。飛比價格收錄了6億筆商品數據,每個月網站造訪人次高達800萬次,旗下廣告聯播網每月更有50億次請求。這整套商業模式背後的核心技術,就是第一網站從頭到尾自行打造的搜尋引擎,可以綜合搜尋上百家電商商品。
帶領第一網站打造搜尋引擎的推手是研究發展部副總經理劉勉志。他曾於2000年初擔任Yahoo奇摩首席工程師,負責設計與規畫Yahoo全球搜尋系統架構、推動大中華區搜尋引擎中文化,後來,更肩負了40個國家的搜尋技術移轉任務。
劉勉志回憶,2000年左右,他和後來成為第一網站IT人員的同事們,在奇摩站及合併後的Yahoo奇摩擔任工程師,參與建設奇摩家族、知識+等重要服務的底層基礎架構,以及Yahoo大中華區網頁搜尋功能。當年,開源程式碼或開發框架等資源尚不普及,且硬體和網路資源非常有限,「我們還遇到過要用1GB記憶體來服務3GB索引的情況。」他笑道。這種開發條件下,所有服務都必須盡可能用最少的請求和讀取次數來設計,且背後每一行程式碼,都是他們手動撰寫。
為了打造Yahoo大中華區搜尋功能,劉勉志及Yahoo工程團隊還成為了臺灣首批接觸NLP技術的人。他們利用NLP技術打造了搜尋關鍵字自動完成、錯字更正、語意分類等技術。從頭建立搜尋引擎底層架構的過程中,他們不只熟悉了NLP技術,更累積了將NLP技術融入搜尋引擎設計的經驗。
劉勉志坦言,當年的開發方法和技術,不全然適用現今環境。不過,這個時期打下的堅實基礎,使他們有能力為第一網站建立精實的系統架構和強大搜尋引擎。
梳理上百家電商的6億筆商品數據,統一數據規格來打造比價功能
要做跨電商搜尋引擎服務,第一步是收錄不同電商的商品數據。自2013年,第一網站跟隨著臺灣電商發展歷程,逐步蒐集B2B、C2C、B2B2C電商商品數據,10多年來累積了來自上百家電商的6億筆商品數據──是Momo SKU數的130倍。
這條數據蒐集之路上,第一網站面臨了幾個挑戰。首先是從不同規模和技術成熟度的電商蒐集數據。第一網站必須和一家家電商洽談數據串接,相當耗時。並且,不同電商技術成熟度不同,數據拋轉作做法也不盡相同,有些電商可以直接進行串接系統,有些則需要第一網站自行爬蟲。
蒐集完這些數據,下一個挑戰是將所有來源的商品數據整理成相同格式,才能用來比價,以及用於打造搜尋引擎等其他功能。他們自行設計了一套商品分類框架和商品資訊格式。所有蒐集來的商品數據都會經過梳理後,轉化成第一網站自己的商品格式。
為了方便梳理數據,第一網站向其他電商索取數據時,會先嘗試限縮資料格式到數種標準格式。他們要求對方用Google、Meta等國際大廠訂定的標準交換格式,或者直接用第一網站的資料格式,來提供數據。
不過,就算先於蒐集階段指定了資料格式,這些資料仍多為半結構化資料。第一網站還需要用機器學習模型辨認出這些資料中的商品特徵,判斷出比價所需的商品名稱、規格、標價、實際售價、促銷活動等資訊,再將所有商品資訊轉化為自家資料格式。劉勉志說,第一網站利用這套流程,自動辨認出高達9成的規格化商品的商品特徵,並能利用這些特徵,將不同電商的同一商品歸類,供消費者比價。
用網頁搜尋的經驗和思維來做商品搜尋
第一網站的搜尋引擎不是只有檢索的數據量龐大。「我們是以國際級網頁搜尋引擎的規格來打造電商搜尋引擎。」劉勉志如此強調自家對於搜尋引擎技術的投入。他舉例,第一網站參考Yahoo時期經驗,早在其他電商之前,利用NLP技術及近義詞詞庫,來處理商品暱稱、錯別字和模糊語意的輸入,給出高關聯性搜尋結果。
劉勉志說,要做出強大的電商搜尋引擎,只有人和商品兩大類數據並不夠。「要打造好的搜尋引擎,使用者行為數據和商品數據只是其中兩項要件,還有一個是強化搜尋品質的數據及做法,也就是如何讓機器善用前面兩種數據。」為了強化搜尋品質,第一網站用上許多不同做法,包括建立各種輔助用資料庫、人工為搜尋品質評分、利用機器學習提取商品及使用者數據關鍵洞察等。他們也設有專門負責維護和優化搜尋品質的團隊。
其中一個重要做法是,利用一套2階段機器學習流程,從有限使用者和商品數據中提取搜尋結果排序的屬性及權重。
第一階段是屬性提取,對特定使用者輸入的搜尋內容及第一網站自家商品資料,進行各式各樣的自動分類,再將這些分類作為之後排列搜尋結果順序的參考屬性。
劉勉志說,第一網站一開始拿到的商品資訊,多是半結構化資訊,且包含維度有限。甚至,不同電商呈現同一種資訊維度的方法也不同。例如,電商根據不同購買者資格或促銷活動,會對同一件商品有許多種價格資訊,例如標價、會員價、特價、完成特殊任務或領取折價券才能提供的價格等,不同電商對這些價格的資料描述方法都會不同。或者,同一件商品的規格資訊,會藏在商品標題或商品描述等不同地方。
第一網站必須打造一系列機器學習模型,結合有限商品資訊與第一網站對商品的理解,包括商品特性、交易情況等資訊,來提取出各種屬性,用於搜尋結果排序。目前,上百個用來排序搜尋結果的屬性中,至少有一半都是用機器學習模型提取出來的屬性,包括商品廠牌,熱賣程度、是否為耗材等。
提取出上百種屬性後,第二階段是結合人工評分和機器學習,來修正不同屬性對於排序結果的影響程度。做法是,先隨意給定屬性權重,得出一次搜尋結果。接著,由搜尋品質團隊用一套搜尋關聯性標準,為這次搜尋結果的項目一一人工評分。這些評分會輸入修正屬性權重用的機器學習模型,提取出新的屬性權重。每當第一網站為排序演算法新增屬性種類,就會再重複一次這個人工評分和屬性提取的流程。
不只從商品資訊切入,第一網站還會從使用者行為資訊,來尋找強化搜尋品質的資料。一個做法是,將使用者瀏覽及點擊行為整併成使用者旅途,再比較性質相似的使用者旅途,找出可以改進系統或調整排序策略的線索。舉例來說,如果使用者搜尋特定商品時,常點擊搜尋輔助工具,如手動分類、過濾選項等,代表預設搜尋結果排序方法有改善空間。
攝影/洪政偉
支援每月數十億次網站請求的數據架構
為了有效利用數據來支援搜尋、推薦及廣告等功能的開發與維運,早在公司草創期,工程團隊便憑著Yahoo時期處理巨量資料的經驗,以處理超大規模數據為前提來設計數據架構。
第一網站發展至今,即使光是廣告聯播網就有每月50億次請求,這套資料架構與工作流程仍然可以支援數據相關作業正常運作。
劉勉志說,第一網站數據架構以解決日常營運的三大需求為目標:短時間內處理數據、降低數據儲存成本、降低機器處理數據時的運算成本。
為了降低儲存成本,第一網站依照資料完整度,將資料分成3個層級。第一層級是完整原始資料,只於Hadoop叢集保留2至4周。第二層級是初步整合過的第一層級資料,會保留3至6個月。第三層級則是第二層級資料分類、歸納後的結果,可以保留1至2年。
原則上,第一網站工程團隊鮮少直接使用第一層級資料。研究和開發時,則會探勘第二層級資料。日常工程作業,只會用到第三層級資料。這種用途分類下,只有資料量最小的第三層級資料需要為了隨機存取而做索引,能有效降低機器處理資料時的運算成本,也能壓低資料處理時間。
此外,第一網站還使用了許多做法,來進一步支援他們處理大量資料,包括開發平行處理機制來降低硬體閒置時間、非同步化(Asynchronize)請求和回應來避免任務霸佔伺服器資源、利用訊息佇列(Message Queue)緩解瞬間流量,以及為不同熱門程度的商品設定不同頻率的資料同步周期等──最後一招,也是第一網站效仿Yahoo等網頁搜尋引擎更新網頁索引的做法。
持續累積新領域的電商數據,更要用相同數據做法走到海外市場
可支援超大量數據處理的數據基礎架構,使第一網站能持續擴充自家電商數據軍火庫。
他們下一個目標是團購類電商。劉勉志說,團購類電商常販售與其他電商型態相異的商品,且許多團購消費者原本不會上比價網。也就是說,蒐集團購電商數據,使第一網站能接觸到全新的商品類型和消費者族群。他們近月於自家App推出了團購訂單管理及追蹤功能,以期吸引賣家與買家下載App,並留下寶貴的團購電商數據。
另一種他們要積極蒐集的數據是第一方Cookie。數位行銷是第一網站重要收入來源,因此他們也將受到今年第三方Cookie退場衝擊。劉勉志說,除了蒐集消費者Email和手機等識別用資訊,他們還打算蒐集更多第一方Cookie,才能更完整追蹤消費者足跡。初步構想是,和合作對象合法交換彼此第一方Cookie,以及投放數位行銷內容時,導引使用者經過第一網站網域,來蒐集第一方Cookie。
不只要持續累積新領域的電商數據,第一網站更要用相同的數據基礎架構和做法來挑戰澳洲市場。今年,他們上線了飛比澳洲,目前收錄來自300家電商的5,000萬筆商品數據。
劉勉志說,雖然他們是用同一套數據做法來經營澳洲市場的導購網,不過澳洲市場零售型態和商品種類與臺灣相差許多,帶來的最大初期挑戰反而不是數據蒐集,而是熟悉當地零售環境,才能進一步規畫商品數據的分類和應用方法。
CTO小檔案
劉勉志 第一網站研發部副總經理
學歷:淡江大學資管所碩士
經歷:曾在Yahoo奇摩工程團隊開發諸多社群平臺及中文搜尋工具。升任首席工程師後,擔任Yahoo全球搜尋系統架構的設計與規畫,並負責40個國家、超過30種語言的搜尋技術移轉任務。後加入第一網站擔任研究發展部副總經理,強化旗下產品的搜尋及個人化推薦等功能。
攝影/洪政偉
公司檔案
第一網站股份有限公司
●地址:臺北市中山區復興北路164號2樓之1
●成立時間:2007年
●主要業務:聚焦於購物搜尋引擎「飛比價格feebee」、精準行為廣告「Feebee Shopping Adnetwork - FSA」、「Sitemaji聯播網」、「飛比 BI 電商市場情報」及「飛比+1團購訂單系統」等服務。
●員工數:56人
●董事長:盧大為
●總經理:李宗豪
公司大事紀
●2007:第一網站成立
●2010:「Sitemaji」廣告聯播網服務上線
●2013:「飛比價格」購物搜尋引擎服務上線
●2015:App服務、瀏覽器擴充功能上線
●2017:海內外網路媒體夥伴突破200家
●2018:聯播網廣告請求突破每月20億
●2019:App下載突破200萬
●2021:「Feebee Shopping Adnetwork-FSA」購物廣告上線
●2023:「飛比+1團購訂單系統」與「飛比BI電商市場情報」服務上線、前進澳洲市場開設Feebee AU
熱門新聞
2024-11-10
2024-11-10
2024-11-11
2024-11-10
2024-11-08
2024-11-08