中正大學犯罪防治中心和新北市警察局合作,利用其警勤區刑案資料繪製報案斑點圖,並經由大資料分析技術,分析犯罪成長曲線,找出預測模型,下一步便要透過資料探勘和分析預測技術,從過去已發生的犯罪熱點圖,轉換成未來的犯罪機會圖,協助警方更有效的預防犯罪。

先前臺北市釋出各種犯罪地圖,公布最常發生竊盜案和婦女受害的地點,引發民眾對於影響房價的疑慮,臺北市市長柯文哲認為公開這些資料後,警方或民眾能針對高犯罪地點加強防範措施。

不過,只知道過去的高犯罪地點還不夠,若要有效預防犯罪,還得進一步預測出未來可能發生犯罪的地點。近日科技部針對教育、防疫醫療、災害預警與犯罪防治領域,提出5項大資料應用的階段性研究成果。其中,在預防犯罪領域,中正大學犯罪防治中心和新北市警察局合作,利用警勤區刑案資料繪製報案斑點圖,再經由大資料分析技術,分析犯罪成長曲線,希望能進一步透過資料探勘和分析技術找出預測模型,從過去已發生的犯罪熱點圖,轉換成未來的犯罪機會圖,更有效預防犯罪。

其實這樣的做法在國外早有實際成果案例,如美國洛杉磯警察局導入警政預測分析雲端服務,將過去10年的各類型犯罪資料結合演算法,建構犯罪行為模型,能精準定位地圖上各區塊最有可能發生犯罪的地點和時間,並讓警方加強特定區域巡邏。導入預測服務後該地區犯罪率下降2成,甚至有其中一個地區出現50年來第一次24小時內無犯罪紀錄。

這也是中正大學犯罪防治中心接下來要進行的方向,中央大學教授兼副校長及犯罪研究中心主任楊士隆表示,除了第一階段和新北市警察局合作,第二階段則進一步將司法院的刑事判決紀錄、法務部資訊處及法務部矯治署提供的獄政資料庫整合,找出法官、檢察官、被害人自身、被告及原告之間的關聯性,進而得出影響判決的關鍵因子,如被告手段是否兇殘、被害人的性別、國籍、年齡,及檢察官是否具體求刑,都是主要的影響關鍵。

這麼做的目的之一就是要提供法官一個客觀的量測判決參考依據,讓法官不會侷限於個人的經驗,也能參考到整體的判決結果分布。楊士隆表示,從犯罪動機與法官判死刑或無期徒刑之間關聯性的資料分析結果可以看出,若犯罪動機為財產糾紛,包括保險及債務問題,被判死刑的機率是無期徒刑的2倍以上,但若犯罪動機是感情糾紛,則有超過6成判無期徒刑,不到4成判死刑,而沒有犯罪動機的,則有9成以上被判無期徒刑。

第三階段則要用資料探勘技術,依照受刑人特性,演算出受刑人的高、中、低再犯機率,建構出再犯風險評估模型,再分析獄政資料庫中,存在可能導致犯罪類型的家庭、環境、性格等因素,進而找出某段時距中發生再犯的機率,及各種犯罪成因的序列樣態。

目前,他們也針對毒品危害防制領域,透過獄政組與法務部資訊處、矯正署教化輔導組、矯正醫療組及毒癮戒治科等單位的資料整合,找出可能的犯罪構成要素,調整受刑人輔導方向,並根據再犯機率等因素,建立假釋審查的評量標準,提供假釋委員參考依據,做出有效判斷。

除了用來預防犯罪,另一個政府大資料應用是在防疫醫療領域,元智大學與衛福部、臺灣颱風洪水研究中心,以及環保署合作,將醫療健保就診資料、環境污染資訊及氣候等異質資料結合,進行醫學健康大資料分析。

元智大學資管系教授詹前隆表示,他們先建立底層的醫療、環境異質大數據分析平臺,以及動態醫療趨勢分析預測模型,運用資料分析、視覺化分析及趨勢事件分析等方式,找出其關聯樣態,再開發醫療健康創新應用,如個人化健康事件及風險事件預測通報。

目前研究成果包括分析氣候、空汙因子對呼吸道疾病的影響,並找出關鍵模型與規則,來預防呼吸道疾病。另外,過去的研究認為低溫容易造成60位老人發生顱內出血,不過他們從目前的大資料分析研究中發現,45歲以上的中年人發生顱內出血的機率,就會受到氣候關係影響。

此外,由於花東地區的發生機率是臺北的3倍以上,因此除了氣候與環境,醫療可近性也是可能的影響因素。其他進行中的研究還包括心肌梗塞、紅斑性狼瘡、頭部創傷、眼中風、創傷骨折、乳癌、再入院事件及慢性肺阻塞等研究。

詹前隆也說,他們採用大資料運算平臺Hadoop的分散式檔案系統HDFS,再搭配分散式資料倉儲系統Hive,以及採用記憶體式運算的即時分析技術Impala,並利用R Studio來做線上資料分析及探勘。

而另一方面,臺灣大學醫學院教授郭育良也以國人健康為主題,結合衛福部的健康資料及環保署的環境資料,研究空氣汙染暴露對人體健康的影響性,並建立評估指標用來預測未來的影響可能。

在教育領域的大資料應用上,中央大學資工系特聘教授楊鎮華以教育雲、教育大市集及磨課師線上學習平臺(MOOCs)作為研究對象,分析其資源使用情形,並提供教材相似度分析工具與服務、資源使用率及教師使用行為分析。

楊鎮華進一步解釋資料處理流程,他們先用Scrapy網頁爬蟲工具來蒐集資料,再分別用Jieba/CKIP及Python做中文分詞和雜訊過濾,資料前處理後儲存到資料庫管理系統Cassandra,再進行資料萃取,包括資料萃取模組、資料庫導覽模組及資料處理模組,並使用SparkSQL資料查詢套件及機器學習套件MLlib。

楊鎮華表示,這些教材資料與使用者行為資料,可以透過資料探勘、機器學習技術,找出未知關聯性和隱藏模式,進行預測分析,進而幫助學校、教師或學生使用更好的教材資源與服務。

而災害防治方面,國家災害防救科技中心副主任周學政表示,他們計畫建立社群網路災情綜整平臺,擷取社群網路上的災情相關資訊擷取,繪製成地理資訊,之後則計畫結合國家災害防救科技中心的災害防救資料,來制定社群災害防救資料標準,及自動化資訊分析技術。

科技部推大資料應用,再將成果反饋回施政

政府鎖定學界作為第一階段合作對象,科技部部長徐爵民表示,在推動政府大資料應用計畫過程中,曾遇到一些問題,例如資料該怎麼開放,由於有些資料牽扯個資法問題,需顧慮的層面較多,未來科技部也將進一步建立跨部會的資料共享和應用機制,催生更多大資料的創新研究與應用。

他也表示,在大資料應用上,臺灣起步稍慢,但可以看到近2~3年的應用越來越多,特別是在政府施政方面,將政府釋出的資料加值分析後,再反饋回來幫助施政,進而激發更多產業商機。

前任科技部長,也是現任行政院院長張善政表示,在大資料時代下,「對一個國家來說,政府手上有最豐富的資料和資源」,他也觀察到這幾年推動過程中,狀況較好的政府單位,由資訊部門提出想法,主動協助部會做資料分析,但是,一旦資料分析需跨出部會時,其他部會未必也能配合,此外,也不是每個部會自己都有想法。

「會使用你的資料的人,不一定是自己人。」張善政表示,常常外面的人才知道要怎麼用你的資料,過去他也常聽聞學校教授想進行研究,但卻沒有資料的窘境。他將資金、人才、點子歸類為政府推動大資料的三大關鍵要素,他說,若沒點子、沒錢、沒人,這些政府的資料只能躺在原地睡覺,不能被善加利用。

因此,2014年他擔任科技部部長時,便開始推動政府大資料應用計畫。張善政認為,對學界而言,能讓教授的研究範疇跨出一步,幫助教授與學生作出更多創新應用,提升校園人才培養,甚至在國際舞臺上有更好的表現,而對政府而言,也能讓政府對大資料的應用和觀念都將有新的眼界,並在施政與決策上有所助益。

他也說,即使教授作出來的研究不一定會為政府帶來直接幫助,這樣的合作仍然可以促進政府跨出既有侷限,而且,這些教授帶出來的學生,也將是臺灣未來的資料科學人才。


Advertisement

更多 iThome相關內容