宏碁軟體工程師李佳修表示,他自己常使用Python分析資料,因為有許多現成的功能套件可以使用。

圖片來源: 

iThome

當企業遇到網路上流傳的不實消息,而影響自家品牌聲譽時該如何自保?宏碁用大資料技術探勘社群,找出關鍵網站,對謠言進行消毒。目前在宏碁負責Hadoop相關業務的軟體工程師李佳修表示,企業對於資料科學的需求很廣,常見的像是品牌在社交網站上聲譽掌握。

宏碁曾發現Twitter上,出現疑似攻擊宏碁的文章,寫道:「宏碁的工程師腦子又再次燒壞了嗎?」,文章中還放上了一張筆電的照片,照片中宏碁筆電的鍵盤的配置很特別,觸控板與鍵盤的位置對調,觸控板違反常理的較靠近螢幕。

用大資料掌握企業周邊訊息

李佳修說,這款筆電具有活動式的螢幕,因此可以轉換成觸控、筆電、平板等多種模式,為因應不同用途,鍵盤才會有特殊的設計。他表示,發文者可能沒有真正了解筆電功能,才會發出具偏頗的文字,經過他們在Twitter的文字探勘,發現這個訊息開始被轉貼傳播,而且衍伸出了3種版本,他們找出這些錯誤訊息被轉貼的關鍵網站,並且開始進行消毒,以引導社群對於這項訊息認知的方向,最後將宏碁 Engineers設為關鍵字,持續追蹤後續發展。

資料科學近年來是一門顯學,但是在臺灣,不少人對於資料科學家的工作內容仍然認識甚少,李佳修用半年的時間拿到企業版Hadoop廠商Cloudera的資料科學家認證,並分享了他對於資料科學的認識以及經驗。

使用分析結果的方法才是大學問

李佳修說,雖然資料科學可以藉由探勘各種資料,取得不少想像之外的統計分析結果,但是如何使用這些資訊,才是一門大學問。以耳熟能詳的尿布與啤酒例子來說,沃爾瑪透過購物籃分析,發現男性通常會在星期四購買周末派對需要的啤酒,而老婆則會提醒先生順道買小孩用的尿布。

他表示,在沃爾瑪分析出這樣的結果後,出現多種解釋的聲音,有些人覺得應該要把啤酒跟尿布放在一起,讓男性顧客方便購買,也有人認為,應該把啤酒跟尿布放得越遠越好,讓顧客行走的動線更長,可以讓更多商品曝光,增加購買機率。

由於人對於資料分析後的資訊解釋不一定準確,或是應用的數學模型可控制變數太多等,種種影響人為判斷正確性的因素,讓機器學習成為資料科學的重要技術,程式將可以自動學習來自資料分析的結果,並做出相對應的改變。

資料分析工具逐漸成熟

李佳修提到,用來分析資料的工具有很多,包括分散式運算架構Hadoop,或是即時分析運算架構Spark,而重要的機器學習技術,也有機器學習程式庫Mahout可用。而他自己習慣的是Python,因為有不少現成的功能套件,包括機器學習的Scikit.learn、統計模型的StatsModels或是資料分析的StatsModels都很常見。

李佳修說,他很認同Cloudera的資料科學家Josh Wills對於資料科學家的定義:「資料科學家就是比軟體工程師還要了解統計,比統計學家還擅長軟體工程的人」。


Advertisement

更多 iThome相關內容