對企業來說,資料的儲存與管理是一件再尋常不過的工作,但多數時候,我們只是把資料當成是每天營運流程當中所生產出來的附屬品,並未真正發現到它所蘊含的真正價值。過去,的確有不少公司,透過成功導入資料倉儲與商業智慧的應用,對於現況事實的掌握開始有了更清楚的認識,因此在本身的經營管理決策制定上,獲得很大的幫助,然而受限於資料處理能力、運算技術的不足,無法及時獲得分析結果,導致企業無法透過這些系統挖掘更多事實,甚至預測未來、掌握趨勢,使得資料分析應用的發展受到很大的挑戰。

近年來,因為相關技術的突破,例如分散式運算的開源軟體Hadoop推出,廣受各界採用,低成本的大資料應用開始迅速崛起,而且以很快的速度普及開來,不僅大型網路公司、政府單位紛紛投入發展,想要藉此活用這些無形資產來提升競爭力的一般民間公司,甚至社會團體、個人也變多了,因此,「資料是新石油」這樣的說法,不再只是適用在特定領域,或是大公司、大型組織才玩得起的應用,而是人人都有機會下場競逐的新世界。

臺灣企業應用大資料技術的比例,將有明顯成長

不過,這樣的現象,已經開始在臺灣發生了嗎?

要了解臺灣目前有那些企業真正開始積極投入相關應用,而且已經獲得確切成果,頗為困難。

不過,從近來一些公司開始大動作地正式對外招募資料科學家,倒是一個機會可以觀察他們,很有可能是否因為導入了大資料應用而決定招兵買馬,因為,比起其他意向不明的公司,透過這些徵才舉動,更能看出他們很願意將資源投資在擅長這個專業領域的人才上。

在一些公司的求職公告上,我們特別注意到網站服務業者龍頭104人力銀行,以及防毒軟體大廠趨勢科技,都在招募資料科學家,他們在大資料應用、資料科學的運用上,究竟有什麼樣的歷程,以及業務發展上的迫切需求,使得他們願意積極尋找這樣的人才呢?所經歷的過程和發現,應該可以讓許多公司能夠借鏡。

借助大資料處理能力,104人力銀行完成新一代資料驅動型產品開發

過去,有許多公司期許從自家資料庫中,能夠採集出可以大賣的東西,而坐擁許多用戶資料的網站業者,自然也想充分運用這些資料來做分析,位居臺灣求職網站龍頭地位的104人力銀行,經過一番努力,他們這幾年來也開始品嚐到大資料分析帶來的甜美果實,因而產生更強烈的分析應用需求。

他們在陸續投入資料探勘與資料導向的產品研究後,開始推出相關的新服務,例如2012年9月上線的104升學就業地圖,以及今年1月份推出的104職務大百科,兩者都是從資料分析角度所衍生來的產品。

就分析應用類型來看,這兩項產品都是屬於敘述式的分析(Descriptive Analytics),他們用一些統計的方式來分析104人才資料庫,把分散的資料歸納成使用者看得懂的內容,因為目的是更清楚地呈現特定主題資訊的現狀,所以採取這樣的作法。雖然這並非更進階的分析類型,像是診治式分析或預測式分析,但104人力銀行所進行的方式,但其實已經足以突顯與證明大資料應用的成效。

104人力銀行研發處資深經理李魁林表示,在發展這兩項資料產品的過程中,他們發現到公司需要投入更多專精的人才,因此開始正式對外招募資料科學家。

對該公司的研發處來說,開發新產品是他們主要的工作項目之一,而如果用既有熟悉的方式來進行,所能做到的服務內容大同小異,因此他們在想能否有一種新的方法突圍。

李魁林表示,因為公司擁有豐富的人才資料庫,於是,四年前他們試圖從這些資料中,去尋找開發新產品、新功能的可能性。但直到2012年起他們開始導入大資料應用的概念,也自行架設了Hadoop的分散式資料處理環境加以運用,將大量使用者的資料載入後,再進行後續分析。

從那時候起,情況有了很大的改變。因為,他們可以開發更多資料相關應用,於是,開始發展出從資料分析角度生出來的產品,像是該公司的升學就業地圖、職務大百科的新型態網站服務,都是基於大資料應用所研發出來的。

由於有很多人都到104人力銀行求職時,都會登錄履歷表,以前這邊的資料的特殊應用不多,現在他們可以從資料分析的角度來重新看待計有的會員資料,就可以因此衍生出新的、不同的產品模式。

當他們有能力處理這麼大的資料之後,基於這些數據,他們所講出來的話就會更具說服力。李魁林說,本質上,這跟以前採取的抽樣,以及現在所流行的普查相比,分析的角度是不一樣。因為現在你能擁有和處理所有完整的資料,雖然從學理來說,統計抽樣只要有一定的樣本,而且樣本自身沒問題,就具代表性,但相較之下,大多數人寧可相信從「完整的資料」所分析出來的結果,會認為比抽樣的效果更精確。

在資料分析之後的處理,104人力銀再衍生出這些資料產品的設計和包裝時,也會設法讓使用者知道這不是透過統計、純抽樣所產生的,而是是透過大母體所出來的內容,因此,就可以建立公信力。

跟一些世界級的大型網路公司相比,104人力銀行的資料量是沒有那麼多,李魁林說,他們公司的主要業務都在臺灣,會使用他們求職網站的人,差不多六、七百萬,所能貢獻的資料量有限。但光是這樣的資料規模,若要同時追蹤每個人的點擊動作、應徵記錄等,他們在過去沒有大資料處理技術時,已經不能負荷,頂多就是記錄一下,但很快硬碟容量就不夠用,所以無法克服這樣的障礙。現在,他們已經有辦法處理了。

他認為這類應用的關鍵,並不在於能處理的資料量有多大,而是資料的品質,以及後續能處理的內容。而且,就算你採用傳統的資料分析,也同樣要去處理資料品質的問題,但以前能處理的資料量有限,現在的方式可以處理很多資料。

處理資料品質這件事很重要,因為「垃圾進、垃圾出(Garbage in, garbage out)」,他發現,尤其是來自舊型應用服務的資料,結構都很糟糕,如何把這些壞掉的資料弄乾淨要費一番功夫,104人力銀行的作法有好幾種,最簡單的方式是定好新的規格,請前端產品開發單位協助做好記錄檔,從前頭就開始處理;也可以透過程式開發的方式進行,像是在Python的程式語言中,就有一些現成的工具可以幫忙。

跟過去相比,104現在更有能力去處理大量使用者資料,而且,從資料分析角度所衍生的新產品和業務模式,也陸續開發出來,像是104升學就業地圖和104職務大百科這兩項新的網站服務,都是基於新導入的資料分析應用方式,而推出的代表作。

趨勢科技克服資料暴量難題,並發展出新型防護功能

多年以來,整個防毒軟體產業都很仰賴資料分析,收集惡意程式或檔案的樣本來加以分析特徵,再製作病毒碼派送到用戶端電腦上比對。

然而,近幾年以來,病毒、惡意程式數量急遽增加,現在所要處理的資料量比以前大太多了,防毒軟體大廠趨勢科技對此苦思解決之道,於是開始試著運用數學統計、資料採礦、機器學習等方式來克服。

基於這樣的技術,他們在2008年推出了主動式雲端截毒技術Smart Protection Network(SPN),因此對於惡意或與工作無關的網址分析、垃圾郵件判別、檔案信譽服務,以及在沙盒環境中模擬的行為分析等種種資料的處理,有了很大的進展。

為了繼續提升資料分析能力,今年初趨勢科技也特別在徵才公告中,強調大資料應用相關人才是重點之一,他們提出的職務有「Data Researcher」和「Data Science Engineer」,這兩項工作的內容近似資料科學家。

而在沒有出現大資料與資料科學家這樣的詞彙之前,趨勢科技在2012年就已經開始發展這類型的分析應用,對他們來說,處理巨量資料需求是家常便飯。

趨勢科技研究開發部協理黃懷德表示,當時他們想將一些威脅偵測的技術放在網際網路上(也就是後來很風行的雲端防毒概念),他們深信幾乎所有的使用者都會連上網際網路,如果能給予即時保護,會是很理想的作法,於是,開始實現SPN這樣的概念。而且趨勢SPN所包含的範圍不只是針對病毒,還包括網址過濾、垃圾郵件辨識,這些工作都需要大量的資料處理,因為光是所收集的樣本可能就非常多,因此,如何用有效的方法來辨識它們的差異,會是關鍵。

在這之前,他們大多透過採樣的方式,來進行分析與辨識,並且仰賴資料分析的專家來進行分類、找出特徵。但隨著需要分析的資料越來越大,這種方法越來越不適用。

這樣的資料到底有多大?單就每年新出現的病毒數量與每天需要處理的病毒數量來說,規模就相當龐大。

以評測防毒軟體著稱的AV-Test研究機構所收集的惡意程式樣本統計數據來看,2008年起,數量上開始有爆炸性的成長,那時的惡意程式不到2百萬個,但6年後的現在已增加到將近2億個,在病毒成長數目超快的情況下,傳統透過採樣的分析技術已經不太適合了,因此趨勢開發防毒軟體的人員後來也對內部提出需求,希望透過大資料分析的應用,能提出新的防禦技術。

後來,這樣的功能的確被趨勢科技開發出來,不只足以分析數量快速成長的惡意程式相關資料,而且還能同時分析用戶端電腦裡面所回傳的資訊,依此來了解使用者、應用程式與檔案的行為是否有異常。

而這套基於大資料分析所開發出來的技術,也相當廣泛地整合到趨勢的既有產品內。因此,現在趨勢科技不只是收集網路上各種惡意程式檔案,手邊也有更多用戶端電腦所回報的資料,可以依此來了解用戶行為。

然而,將大資料分析所獲得的威脅防護資訊,整合到趨勢的防毒產品,黃懷德說,這看似簡單,但又是另一項挑戰。因為資料分析團隊和產品研發團隊在過程中,必須不斷溝通,有賴彼此之間的默契,才能使產品研發部門的人員確認並信任新技術,以免因為小小的失誤而影響產品的運作。

除了將大資料應用放到產品端,黃懷德提到,公司其他部門也正在運用這樣的方式作研究,他們希望透過收集來的資料來協助做更好的決策,例如分析產品使用者的行為,來改善現有產品的設計。顯然,這跟多數企業會用到的商業智慧應用是比較相近的。

過去,趨勢科技要做到這件事,主要是透過焦點團體的方式,挑特定客戶來訪談,然後根據收集到的資料來設定用戶的虛擬角色,所以,這是屬於抽樣的方式。而現在,趨勢科技本身就可以透過很多種方式,收集到用戶資料、使用行為,讓公司更清楚該怎麼設計產品,該如何推薦產品,用戶才會更願意買單,有助於對產品本身作出效果更好的市場行銷活動。


104人力銀行用大資料技術發展新型資料產品
2012年起104人力銀行開始導入大資料應用的概念,跟過去相比,104現在更有能力去處理大量使用者資料,從資料分析角度所衍生的新產品和業務模式,也陸續開發出來,像是104升學就業地圖和104職務大百科這兩項新的網站服務。

 
趨勢科技以大資料技術建構新型態防禦網路
近幾年以來,病毒、惡意程式數量急遽增加,現在所要處理的資料量比以前大太多了,防毒軟體大廠趨勢科技對此苦思解決之道,於是開始試著運用數學統計、資料採礦、機器學習等方式來克服。基於這樣的技術,他們在2008年推出了主動式雲端截毒技術Smart Protection Network(SPN)。

 


Advertisement

更多 iThome相關內容