Gogolook資料科學家高義銘

圖片來源: 

iThome

全球安裝超過1,000萬次的手機來電辨識App Whoscall,每天過濾超過3,000萬通的電話,能在使用者接起電話之前,以高達95%的準確度判斷出未知來電是否為垃圾(Spam)電話,而Whoscall的開發商Gogolook也在2013年被Line的母公司Naver以6億元買下。Whoscall高精確度的電話辨識功能,讓使用者快速地篩掉不想接聽的行銷電話,嚴重影響銀行和保險業等電銷接聽率,進而促使電銷相關產業面臨轉型,而其幕後的關鍵資料科學家就是高義銘。

高義銘政治大學統計所畢業後,接著到美國北卡羅來納州立大學攻讀統計博士學位,他的博士論文的主題是病毒封包的辨識,高義銘說,他的博士論文研究跟現在他在Gogolook做的事很像,都是設計出一套數學模型,用來對資料進行分類,只是現在應用於判斷電話號碼是否為垃圾電話上,而他覺得統計領域相對其他學科更好切入資料科學。

畢業後,高義銘原本想在美國找份資料科學家的工作,他表示,在美國一個剛畢業的新人找資料科學家這個職稱的工作,年薪大概300萬元,而在這個領域更資深的人薪水會更可觀,目前Gogolook也正在徵求資料科學家人才,起薪是6到9萬元,他說,當一家企業認真想讓資料產生價值,並轉化為競爭力,聘請資料科學家的薪水不會太低。

用資料科學把關來電

高義銘到Gogolook的第一個任務,便是要替Whoscall新增辨識垃圾(Spam)來電的功能。

他說,過去使用者接到一通未知電來電,這個電話號碼不存在使用者電話簿中,當使用者想要知道電話是誰打來的,可能的做法是查電話黃頁、搜尋Google,或是安裝來電辨識的App Whoscall,但是當這支電話號碼不是Whoscall使用者,也沒有使用者標記或回報過,Whoscall該如何判斷這通電話是否為推銷電話、騷擾電話甚至是詐騙電話?

首先,他們找了一群願意提供測試資料的使用者,並藉由比對這些測試者對陌生電話號碼的標記,諸如推銷、色情和騷擾電話等,找出垃圾電話號碼,並對這些號碼進行行為分析,找出垃圾電話號碼的特徵。

高義銘說,統計大量數據後發現,不少垃圾電話號碼擁有明顯的特徵(Call Pattern),例如垃圾電話號碼撥出的時間大多集中在周間的上班日,六日幾乎沒有活動,而這也很符合保險業、銀行業,或是電話行銷的上班時間。另一項代表性的特徵是撥出率高,當某支號碼撥出的次數,比接聽來電的次數多很多,有非常大的機率是垃圾電話號碼。

他總共定義了64項特徵以辨識垃圾電話,超過特徵設定的門檻值,就會認定可能為垃圾電話。但高義銘表示,不可能為每一項特徵都訂定固定的門檻值,因為特徵總共有64項,而且門檻值可能會隨著各種情況變動,因此這也衍伸出另一個議題,多少的門檻值是恰當的。

而高義銘表示,比較科學的方法是使用機器學習來控制門檻值,以程式設計一個數學模型並利用資料來訓練這個分類模型,當模型學習到達一定程度,便能用來對資料進行分類。

高義銘選擇用來分類的機器學習技術是,SVM(Support Vector Machine)二元分類法,用定義的64個特徵當作篩選條件,來判斷電話是否為垃圾電話,越先使用的特徵則權重越大,每支電話都會經過一連串是與否的判斷。

不過,高義銘表示,思路必須回歸使用者的真實使用情境,當有一通未知電話撥進使用者的手機,Whoscall必須在0.5秒內告知使用者這通電話是否為垃圾電話。但是經過64項特徵判斷,需要耗費太多時間,雖然特徵篩選結果會比較精確,但是用增加的時間成本所換得的微幅結果改善並不划算,因此最後只留下20個影響較大的特徵,即便稍微影響判斷精確度,但是這是效能與精確度權衡的結果。

高義銘說,資料科學家職位的設置對於公司的影響是全面性的,當他開始為Whoscall規畫過濾垃圾來電的功能時,設計演算法是一部分,同時也需要從資料的源頭開始重新設計,因此他必須跟負責其他資料流環節的同事合作,討論資料的格式跟型態,以方便整體的改進。因此高義銘也認為,與他人合作的能力,雖然不是一種專業技能,但是卻也很重要,因為將資料轉換成價值這件事,並非一個人就能成就。

資料科學涵蓋領域廣

高義銘說,資料科學家需要的技能涵蓋的領域太廣了,一個人要學會所有的東西幾乎不可能。在Gogolook的做法,除了設置資料科學家這個工作之外,還搭配了一位資料工程師,這兩個工作是一個團隊,他們負責Whoscall所有資料的邏輯,從用戶端到伺服器端的資料處理,高義銘負責設計演算法,而他的夥伴負責用資訊技術給予支援。Whoscall的伺服器端使用Python程式語言,高義銘會用R語言做實驗並測試新的演算法,接著主要由資料工程師將演算法用Python程式語言實作。

另外,高義銘也表示,在臺灣有一個怪現象,企業追求大資料技術帶來對資料的運算能力,卻忽略資料分析才是根本,企業著眼點應該先放在精進資料分析的模型上,否則一味的導入大資料,卻採用粗淺的分析資料模型,將會使眾多隱含在資料的資訊被忽略。

 

資料科學家的工作,就是從雜亂無章的資料解讀其中意義,並做出決策建議,高義銘將可讀性低的資料視覺化後發現,採用20個分類特徵的結果已有一定的準確度。(圖片提供/Gogolook)

 

高撥出率是64項垃圾電話號碼特徵之一,撥出(紅)的次數遠高於來電(藍)次數,特徵之二是垃圾電話號碼在假日幾乎沒有任何活動。(圖片提供/Gogolook)

相關報導請參考:「大資料三部曲之3|資料科學在臺灣」「大資料三部曲之2|資料科學走入企業」「大資料三部曲之1|顛覆傳統的大資料處理新思維」


Advertisement

更多 iThome相關內容