展竣創意技術顧問洪進吉(暱稱為食夢黑貘)和林克傳說玩家公會的夥伴分析20億則臉書留言,找出百萬臉友對服貿事件的民意動向。

從20億筆臉書留言中,想找出100萬人對服貿議題支持者或反對者的比例,甚至要知道反對方或支持方各自關心的熱門話題是什麼,要花多少時間?展竣創意技術顧問洪進吉(網路暱稱為食夢黑貘)和一群夥伴,只花了30個小時,就打造出了服貿東西軍網站,能隨時反映出臺灣臉友對於服貿事件支持或反對意見的比例,等於反映出臉書對服貿事件的即時民意動向。

洪進吉曾開發過淡江BBS蛋卷個人站,也設立了部落格觀察網站來評鑑各種部落格的影響力和排行榜,也曾是博客來利用資料探勘技術開發推薦購買電子報的技術顧問。

服貿東西軍正是他以過去擅長的資料探勘技術應用經驗,和十多位網站工程師共同開發出來的成果。

洪進吉利用了臉書API開發了一支臉書爬蟲程式,隨時蒐集100萬名臺灣臉書使用者的公開發言訊息。洪進吉表示,2個月的發言訊息約有20億則,其中約1~2億筆發言內容中有轉貼的網路文章網址。過濾掉重複連結後,約有100萬個不重複連結網址。

洪進吉以一個連結被這100萬人轉貼的比例,定義為這個連結文章的觸及率(Reach Rate),例如目前洪進吉定義觸及率達3%的網址連結就是熱門轉貼文章,也就是這篇文章被3萬人轉貼,接觸到了100萬名臉友中的3%。

在100萬個不重複連結網址中,洪進吉表示,約有2萬篇轉貼文章的觸及率超過3%,找出這些文章後,下一步就是議題組合。

洪進吉會為每一篇文章標記關鍵字,這些關鍵字也就成了這些文章的議題分類,使用者可用一個議題名詞作為關鍵字,透過關鍵字搜尋功能找出與這個詞相關的所有轉貼文章,並依觸及率高低來來排序,列出這個關鍵詞中觸及率最高的文章,也就是這個議題中最熱門的轉貼文章。

不過,洪進吉沒有採用自動分類技術來為這2萬篇轉貼文章標記關鍵字,他說,因為自動分類的效果還不夠理想,倒不如用人工判斷來標記關鍵字的分類品質,關鍵則是如何降低人工分類作業的成本。 

洪進吉以文章標題搜尋功能搭配批次標記機制來加速人工分類作業。先搜尋這2萬篇熱門文章的標題,找出與特定關鍵字有關的文章,再對這批文章套用需要的關鍵字,只判斷是否有關而不更細分關連性的強度。如此透過幾次自動搜尋搭配下關鍵字機制的作法,快速處理大部分的熱門文章分類,其餘無法透過標題比對分類的文章,則由人工判讀內容來下關鍵字。洪進吉開玩笑地將這個作法稱為是一種「工人智慧」的作法,但是可以得到比用程式自動斷詞分類更有效的分類品質

2萬筆連結文章的分類工作看似很多,洪進吉表示,第一次需要處理的量最大,累積兩個月後,現在每天大約只需處理300~400筆新增加網址連結的分類工作。所以,當18日占領立法院事件發生後,洪進吉先以「服貿」作為關鍵字,利用林克傳說的分析技術,不出幾個小時就先完成了「服貿跑馬燈」網站服務,可即時提供臉書熱門服貿訊息,也釋出了JSON格式的資訊源供其他人再利用。服貿跑馬燈每天瀏覽人數約10萬人。

隔天,洪進吉更上網召集志工,聚集了十多人在咖啡館討論下一步的應用,因而發展出了了服貿東西軍網站,有的人負責網站介面設計,有的人則協助後續的文章分類等。

洪進吉表示,目前從2個月的20億筆臉書發言中,約有2~3,000筆與服貿相關的轉貼連結。

服貿東西軍網站從中整理出了4組服貿熱門議題,再以每一個議題正反方意見所觸及的人數比例來代表意見聲量的大小。例如4月2日凌晨,轉貼服貿連結文章的臉友中,有87.4%的人轉貼反對意見,而轉貼支持意見的人數占比則只有 12.6%,以此來反映100萬人的民意趨向。

洪進吉笑稱他們是一群有熱情的玩家,組成了「林克傳說玩家公會」,想要做點不一樣的事情改變社會,因為雲端時代IT技術門檻越來越低,洪進吉認為:「只要有實作熱情」,IT人就能參與每個環節。

熱門新聞

Advertisement