在現在大數據、人工智慧如日中天的年代,資料科學家成為各類企業角逐的人才,在2012年,《哈佛商業評論》甚至還以「21世紀最性感的職業」一詞,形容資料科學家這份工作,「從畢業到工作的6年,我了解到,學界及業界面對的難題都不一」,而每經歷新的一年,Oath亞太區資料團隊資深資料工程師周曼如都對資料科學家這份工作,沉澱出更多心得。一路上,她總共學到了四大課題。首先,在研究所時期,建立起資料處理的基本功。第二是剛進入職場後,藉著與其他團隊合作,了解到領域知識的重要性。再者,打造資料處理平臺的經驗,讓她看見資料品質的重要性。最後,當資料科學家備齊各項基本能力後,更要開始從使用者角度切入,提高一線消費者的使用體驗。

而周曼如這走上資料科學家這趟路程的故事,可以從她在研究所就學時期說起。當時資料科學還不像現在熱門,而研究所的學習範圍,主要從基本功力為起點,學習如何判讀模型,培養資料科學所需要的基本技巧,主要偏重資料探勘、SVM、決策樹等實作能力。

周曼如表示,相比現在企業所使用的數據,學界環境的資料規模較小,品質也很良好,「而且經過標籤處理的數據,就能套用許多既有機器學習的模型。」

在周曼如踏入資料科學的入門階段時,她學到做為資料科學家,首先得定義問題、收集資料、清理資料、檢視資料品質,決定如何建立機器學習模型後,「最後則是進行特徵擷取」,根據實驗結果反覆修改模型,改善準確度。

了解不同資料性質,領域知識是關鍵

不過完成研究所學業,只不過是建立基礎功力,在進入Oath亞太資料團隊後又是另外一番光景。剛踏入職場時,「主管指派我加入臨時專案(Ad hoc)小組」,該團隊得滿足內部不同業務單位的資料需求。而周曼如第一個收到的任務,就是整理過去電商的銷售額資料,協助行銷團隊的規畫活動。

相比實驗環境收集到的資料,企業實際營運的數據充滿各種不確定性。例如,計算電商商品銷售總額看似簡單,但是還得考慮消費者使用購物金、福利金、折價券等折扣。其中她特別深刻的例子,就是部分使用者取消購物後而反悔,透過電話跟客服要求修改訂單,她笑著說,「只要有客服存在,產出各種資料都有可能。」

這時候她才了解到,原來企業內部資料有不同的個性,光是銷售金額的數據,就內藏許多原先不熟悉的領域知識。而這一段經驗,又給予她更多啟發,「我發現資料有趣的地方個性不一,而要如何了解資料的個性,其中關鍵是領域知識」,而資料科學家要勤於提問,才會知道各部門的領域知識。此外,周曼如表示,SQL語法更是資料科學家的必備工具,除關聯式資料庫外,各種NoSQL、HDFS工具都可以多方接觸。

ETL平臺必須確保匯入資料品質無虞

在這個臨時專案小組,不只行銷部門,她也和物流、倉儲、新聞、法務部門都有業務合作。而該小組運作近1年後,透過團隊成員的整合,逐步將工作流程整合至BI平臺,加速自動化處理。在周曼如對於資料處理、領域知識駕輕就熟後,主管也開始賦予她更大的責任:「檢視現有Oath資料產品」,周曼如因而加入ETL團隊,任務除了整併資料收集管道,還要彙整品質不佳的數據。而ETL團隊的工作事項,首先得萃取各類來源不同的資料,統一匯入資料暫存區後,「經由邏輯轉換,將複雜的資料集中成單一欄位」,最後才將資料匯入資料倉儲。若資料傳輸過程中前端資料收集工具故障,當中又缺乏監控機制,系統便會匯入錯誤、品質不佳的資料,導致公司決策偏離。再者,若資料來源如果雜亂不清,也會造成系統擴充性不良,「開發者也不易建立新的資料產品。」

「起初認為工作沒有想像中困難」,她笑說,原以為自己建立的資料收集工具能順利運作,卻沒想到才上線幾天便故障。後來她檢驗才發現,起初收集的資料都非常乾淨,但是某天一名內部使用者,上傳一筆不符系統處理格式的資料,導致資料匯入過程產生錯誤,引發系統當機。

這又讓她了解到,在資料ETL的流程中,必須確保資料匯入的正確性。而周曼如表示,設計ETL平臺有數個設計細節要特別注意。第一是平臺模組化,如果單一元件故障,只需要針對特地目標排解問題,反之,當各元件相依性過高,會導致維修困難。第二是Data Schema設計,「有效率地對數據進行索引、分割,才能更快取得資料。」

第三則是在系統故障後,必須補齊所需數據時。再者是系統效能設計,根據各業務不同的需求,必須產出不同時間刻度的報表,「包含月報、周報,甚至每小時的報表。」最後,平臺要建立持續監控機制,當資料傳輸中斷時,平臺隨時都可以發送通知。

設計資料產品也要考量使用者體驗

但是,只要瞭解資料模型、熟悉領域知識,還有能力建置ETL平臺,就是一名稱職的資料科學家嗎?周曼如認為,從初期資料模型發想,到最後資料產品落地,當中仍有許多實務問題得要解決。例如,電商推薦系統以當下最受消費者歡迎的產品為依據,推播給使用者訊息,但左右使用者購物的消費因子,不單只有促銷活動,也可能也因消費者使用App的時間有所差異。

她舉例,像是在早晨時段時,消費者通常會在工作空閒時抽空瀏覽,「因為價格高昂得花更多時間考慮,此時適合推薦價格便宜的商品」,當產品上線後,周曼如認為,資料模型並不能完全解決所有問題,還得將一線消費者的使用體驗列入考慮,必須根據應用情境,開發更多不同的資料產品,「當產品上線之後,也要考慮產品有無達到KPI,像是一定的點閱率、轉換率。」

總結走上資料科學家的這一路旅程,「我認為,資料科學最難的就是問一個好問題」,周曼如表示,只有問對了問題,資料科學家才能精確鎖定要解決的目標。而相比學界,與其講究資料模型的精確度,她認為業界更強調,如何在一定時間內,產出85分的資料產品,「不只資料科學家,還要結合領域知識及資料工程團隊一起加入,才能推出優良的資料產品。」

 相關報導   全臺入口網站龍頭的資料工程師們,讓Oath搶下全臺千萬網民眼球


Advertisement

更多 iThome相關內容