宏碁探勘社群文字掌控品牌聲譽

宏碁軟體工程師李佳修表示，他自己常使用Python分析資料，因為有許多現成的功能套件可以使用。

圖片來源:

iThome

當企業遇到網路上流傳的不實消息，而影響自家品牌聲譽時該如何自保？宏碁用大資料技術探勘社群，找出關鍵網站，對謠言進行消毒。目前在宏碁負責Hadoop相關業務的軟體工程師李佳修表示，企業對於資料科學的需求很廣，常見的像是品牌在社交網站上聲譽掌握。

宏碁曾發現Twitter上，出現疑似攻擊宏碁的文章，寫道：「宏碁的工程師腦子又再次燒壞了嗎？」，文章中還放上了一張筆電的照片，照片中宏碁筆電的鍵盤的配置很特別，觸控板與鍵盤的位置對調，觸控板違反常理的較靠近螢幕。

用大資料掌握企業周邊訊息

李佳修說，這款筆電具有活動式的螢幕，因此可以轉換成觸控、筆電、平板等多種模式，為因應不同用途，鍵盤才會有特殊的設計。他表示，發文者可能沒有真正了解筆電功能，才會發出具偏頗的文字，經過他們在Twitter的文字探勘，發現這個訊息開始被轉貼傳播，而且衍伸出了3種版本，他們找出這些錯誤訊息被轉貼的關鍵網站，並且開始進行消毒，以引導社群對於這項訊息認知的方向，最後將宏碁 Engineers設為關鍵字，持續追蹤後續發展。

資料科學近年來是一門顯學，但是在臺灣，不少人對於資料科學家的工作內容仍然認識甚少，李佳修用半年的時間拿到企業版Hadoop廠商Cloudera的資料科學家認證，並分享了他對於資料科學的認識以及經驗。

使用分析結果的方法才是大學問

李佳修說，雖然資料科學可以藉由探勘各種資料，取得不少想像之外的統計分析結果，但是如何使用這些資訊，才是一門大學問。以耳熟能詳的尿布與啤酒例子來說，沃爾瑪透過購物籃分析，發現男性通常會在星期四購買周末派對需要的啤酒，而老婆則會提醒先生順道買小孩用的尿布。

他表示，在沃爾瑪分析出這樣的結果後，出現多種解釋的聲音，有些人覺得應該要把啤酒跟尿布放在一起，讓男性顧客方便購買，也有人認為，應該把啤酒跟尿布放得越遠越好，讓顧客行走的動線更長，可以讓更多商品曝光，增加購買機率。

由於人對於資料分析後的資訊解釋不一定準確，或是應用的數學模型可控制變數太多等，種種影響人為判斷正確性的因素，讓機器學習成為資料科學的重要技術，程式將可以自動學習來自資料分析的結果，並做出相對應的改變。

資料分析工具逐漸成熟

李佳修提到，用來分析資料的工具有很多，包括分散式運算架構Hadoop，或是即時分析運算架構Spark，而重要的機器學習技術，也有機器學習程式庫Mahout可用。而他自己習慣的是Python，因為有不少現成的功能套件，包括機器學習的Scikit.learn、統計模型的StatsModels或是資料分析的StatsModels都很常見。

李佳修說，他很認同Cloudera的資料科學家Josh Wills對於資料科學家的定義：「資料科學家就是比軟體工程師還要了解統計，比統計學家還擅長軟體工程的人」。

熱門新聞