圖片來源: 

攝影_洪政偉

AlphaGo戰勝琪王,讓AI聲勢創新高,許多應用紛紛都看到了機器學習的身影,但是,機器學習真的什麼問題都能解決嗎?棋步可用輸贏機率來斷定優劣,AlphaGo有效運用蒙地卡羅樹狀搜尋演算法(Monte Carlo Tree Search,MCTS)就能找出致勝下法,但趨勢科技研究開發部資料科學家張佳彥認為:「資安威脅是一種複雜問題,」無法用一套標準或制式定義來衡量,因此,在資安分析中,「偵測的檔案,沒有確切的真實數值(Ground Truth),不能單靠機器學習,還得搭配其他技術才能解決複雜問題!」他說。像是趨勢科技就利用了雜訊消除(Noise Cancellation)技術,將威脅分析簡化到機器學習有能力處理的維度。

導入機器學習技術,解決分類誤判是首要任務

張佳彥表示,想靠機器學習做到自動偵測網路威脅的關鍵是如何降低誤判率,在機器學習術語來說,就是要降低FA比率(False Alarm,簡稱FA,意指出現問題程式的警告 )。傳統威脅偵測利用特徵值來分辨,誤判率是千萬分之一,也就是說掃描了1千萬個檔案後,將一個正常檔案標記為惡意檔案,就算出現一次誤判。張佳彥表示,目前機器學習分析能力來看,誤判率介於千分之一到萬分之一之間,也就是掃描1萬個檔案,最多可能出現10次誤判。因為電腦內部系統檔案多,且惡意程式罕見,得掃描數萬個檔案才會找到1個惡意程式,以這個機器學習模型的誤判程度來看,也會同時找到最多20個誤判的正常檔案。但若用同樣的機器學習模型,來偵測從網頁下載的檔案,只要掃描幾百個檔案就可能會找出一個惡意程式,這時的誤判比例只有0.1~0.01(掃描100個檔案x原始0.0001的誤判率=0.01)。張佳彥認為:「對企業來說,這才算是有意義的分析結果,而不是找出一堆的正常的檔案卻都通報成惡意程式。」

張佳彥指出,同樣機器學習模型,放在不一樣的場景會有不同的結果,越可疑的環境越有效果。如何將機器學習應用在惡意程式出現頻率高的環境,才是成功找出威脅的關鍵。不過,就算是靠專家人為威脅分析,也會有失準的時候,甚至得從可疑檔案執行後,是否進一步下載惡意程式,才能斷定,「要能自動偵測惡意程式,又要期望沒有誤判是不可能的。」他說。所以,張佳彥運用機器學習技術的策略是,第一是得避免誤判結果傷害到用戶,第二則是出現誤判時能快速修正。

另外,想要優化機器學習的模型,要快速地收集大量的數據,機器學習模型才有能力繼續辨識最新的病毒,對使用者來說,至少每個月要更新一次模型,他也補充說明,趨勢科技策略是不斷地訓練不同的機器學習模型,再評估是否比既有模型更好,訓練模型約幾個小時,一天其實可以訓練出好幾個新模型,但真正費時的是評估新模型的效果。除此之外,「模型的可見度(Model Visibility)也是很重要的」,張佳彥表示,例如突然發現大量FA誤報時,可能是新的模型失真所致,資料科學家得即時發現問題來修正。

趨勢採用雜訊消除技術,助機器學習提高偵測效果

為了改善機器學習自動偵測的品質,張佳彥表示,趨勢科技搭配了3種雜訊消除(Noise Cancellation)的作法。他解釋,包含了通道(Channel)、普查(Census)和簽章(Signer)。Channel是只用機器學習預測掃描可疑的來源,像是網頁或是電子郵件下載的檔案,而非所有檔案都偵測。其次是建立普查紀錄系統(Census),將已經分析過的檔案建檔,再遇到同樣的威脅特徵就能自動篩選,而不用透過機器學習模型分析,也在此系統增加更多細節資訊,像是第一次出現的時間,來進行長期比較。第三個消除雜訊的方法是利用簽章作為標籤,待分析的目標檔案若沒有簽章,或是檔案提供來源不是系統信任的來源,代表這個檔案的可疑性較高,才作為機器學習模型的分析目標,其餘可信任的檔案則可排除。「透過雜訊消除方法,才能將機器學習應用在對的地方」,張佳彥表示。

漏斗型分層式防護架構,整合機器學習與雲端威脅分析

不過,機器學習只是趨勢防護架構的其中一環,張佳彥表示,趨勢採用了漏斗式的分層式防護架構,分為4層,上兩層是用於還未執行的靜態檔案,下兩層則針對檔案執行的行為來判斷。第一層是利用現有的技術,包括網頁和檔案評價防護系統、漏洞防護系統(Exploit Prevention)和應用控制(Application Control)等,來過濾出已知的正常檔案或惡意檔案。
未知檔案的處理則要再進入第二層處理,趨勢正是利用機器學習搭配雜訊消除作法來分析未知的檔案威脅。為了能夠快速地更新和改善模型,在這一層的分析都送到雲端平臺處理。如果目標檔案通過了前兩層分析,就會送到第三層執行並監控後續的行為,在第三層分析中,趨勢利用了大量專家規則(Expert Rule),來產生一套可疑行為的判斷規則,也用來來偵測目標檔案是否具有惡意的傾向,若發現了可疑行為的程式,再將該檔案送到第四層,利用機器學習分析這個檔案的行為,來判定這樣的行為是否具有威脅,若是,就可以將這個檔案判斷為惡意程式。

圖片來源:趨勢科技

(勘誤:傳統威脅偵測利用特徵值來分辨,誤判率是千萬分之一,也就是說掃描了1千萬個檔案後,將一個正常檔案標記為惡意檔案,就算出現一次誤判。)


Advertisement

更多 iThome相關內容