資策會靠資料科學有效預測IoT安全威脅趨勢，目標布局AI人工智慧資安

過去擅長沙箱巨量資料分析和資安雲端防護研究的毛敬豪希望透過情資整合，並結合資料科學方法，透過有效分析方式來拆解惡意程式的基礎架構，來找出潛在的IoT資安威脅。

這2年不少資安廠商都開始展開AI人工智慧資安布局，試圖想要切入AI資安新興市場，而臺灣也不落人後，來自資策會資安科技研究所組長毛敬豪近日參加臺灣資安大會時，也分享他們最近如何利用資料科學分析方法，來有效預測IoT資安威脅的新成果。

人工智慧資安從幾年前開始就有不少討論，但卻遲遲沒有商用化，直到最近幾年，雲端運算技術發展成熟，加上有越來越多開源AI開發工具釋出，大幅降低了企業進入門檻，才使得人工智慧資安開始有了更多討論。過去擅長沙箱巨量資料分析和資安雲端防護研究的毛敬豪希望利用資料科學方法，透過機器學習和採用更多層類神經網路架構的深度學習技術，來找出資安威脅原因。

資料科學一般涵蓋了敘述統計、分類、分群、回歸、樣態識別等各類型分析方法，毛敬豪表示，要利用資料科學來探索資安威脅的原因，第一件事就是得先蒐集足夠多的情資才可以用於分析使用，「資料分析不能只講原理、原則，而是以實際發生狀況做分析，」因此毛敬豪說，他們取得這些情資的主要來源，包括從惡意軟體報告，如VirusTotal、VirusShare、 Anti Virus等，或者是一些漏洞披露資料庫，如CVE、VulDB、NVD，以及弱點攻擊程式資料庫Exploits Database、0Day Bank等。

當然光只靠公開的漏洞資料庫或網站，來取得這些資安情資還不夠，他們還加入了來自社群媒體相關的情報。毛敬豪解釋，這是因為一些網路設備存在的老舊漏洞，並不是常見漏洞，所以並不會出現在如CVE漏洞資料庫中，而只會在特定社群來討論，再加上，現在因大量IoT設備而出現關於IoT弱點的情資，也是來自四面八方，難以只靠少數資安人力就能完整掌握，「所以社群媒體情資就變得非常重要。」毛敬豪說，目前他們分析的社群媒體是以Twitter為主，之後也會加入Facebook，未來更計畫加上論壇使用者討論內容來做分析。

毛敬豪表示，當蒐集到的情資越多越完整，這也就代表他們能從更多不同角度來看待問題，包括探討不同漏洞影響程度等。而在分析前還必須擬好問題假設，等到確定問題後，接下來才是建立資料分析模型。

毛敬豪和其團隊成員也打造一個弱點情資分析架構，可以套用在不同情資分析類型，包括Twitter、NVD、Keyword等。他也舉了如何利用社群行為來預測CVE漏洞趨勢當例子。作法上，是先將這些蒐集到的情資，先利用特徵關聯方式，來建構出一個大型資料表（BigTable），並採用監督式機器學習方式來建立分類模型（classification model），同時也利用Exploits Database、NVD和微軟Technet，以做為機器學習監督的參考基準，最後才產生分析結果。他們發現，在初步分析結果，SVM(Support vector machine)的準確率可以達到86%，不過這部分還可以再提升。

毛敬豪也分享他們從去年5月到11月Twitter上有關CVE特徵的分析成果，結果發現NVD公布的CVE數量和Twitter的討論熱度成正比，每當CVE出現在被揭露的月份時，該月Twitter上就會出現大量討論，透過社群討論行為分析，他們進一步發現，討論最多的是以作業系統弱點最多、其次是網通設備，不少資安產品也都榜上有名。「這些都能用於判斷CVE弱點發展趨勢。」他表示。

毛敬豪當天分享的另一個利用資料科學分析資安的例子是他們利用日本橫濱大學研發一個取名為IoT-Pot誘捕系統，取得惡意程式情資後，並利用與社群情資跟弱點資料庫情資做異質關聯分析，以預測弱點的擴散程度。

毛敬豪表示，他們利用免費線上掃毒服務VirusTotal來進行樣本資料Labeling後，結果發現VirusTotal能成功辨識的惡意樣本識別率只有19%，代表剩下將近81%的惡意程式都無法加以辨識。進一步分析後，這些被識別出的惡意程式，其中最常見的是一款名叫Trojan.Linus.Gafgyt的IoT惡意程式。其他也發現不少過時PC漏洞被利用於IoT裝置設備上。此外，這些IoT惡意程式以Linux環境的ELF執行檔格式居多，而PC為主的惡意程式則以PE32、ELF 32-Bit 格式最多，並多採用ARM、MIPS、Intel 80386硬體架構為主。

當有情資後，如何利用關聯分析去推論從已知黑名單，來找出未知駭客基礎架構是毛敬豪一直想要做的事。所以後來，他們也開發一套反向追蹤系統Ziffersystem，能透過分析方式來拆解惡意程式的基礎架構，以協助他們追蹤到源頭這個惡意程式背後的連線者是誰，像是可以利用試探惡意網域的連結，或是對於Drive-by-Download的轉址進行分析，如IP、URL等進行潛在分析，最後並繪整成一張可疑黑名單圖表。

以後，當新取得可疑資料後，如新的URL位址，系統馬上就可以很快拿來比對黑名單圖表，一旦匹配符合，代表就有可能是潛在黑名單。他們利用這個機制過去每個月都幫他們找到許多黑名單。不僅如此，去年Mirai殭屍網路攻擊事件，他們後來也透過此方式，從Trojan.Linus.Gafgyt樣本中發現和Mirai的攻擊中繼站位址不少都是重複的，代表兩者間可能存在某種程度的關聯性。

毛敬豪表示，接下來也計畫將Ziffersystem整合到SecBuzzer這個即將4月底上線的情資分析平臺。這個網站初期將會提供各種情資，包括CVE排名、目前漏洞價位，及在推特討論熱度等，另外也會針對他們蒐集到的惡意樣本分析製作成惡意軟體報告，供有需要的企業或資安廠商來取用。

接下來，毛敬豪也提到，他們還有一個資安旗艦計畫，將以機器感知（滲透測試)、深度學習和資料隱私安全三大資安研究計畫為主。未來這些研究成果也將透過一些SDK核心模組和情資API串接方式，可以優先讓國內業者採用。

熱門新聞