【DEF CON 18】：靠機器學習就能準確辨識程式出自何人之手

圖片來源:

Def Con

美國卓克索大學（Drexel University）電腦科學系副教授Rachel Greenstadt與喬治華盛頓大學（George Washington University）電腦科學系助理教授Aylin Caliskan上周在Def Con駭客大會上公布了一項研究成果，展示如何透過機器學習技術，利用程式碼與二進位程式的風格辨識出程式的作者。

Greenstadt與Caliskan先藉由程式作者透過GitHub公開的程式碼建立了抽象語法樹，這些語法樹反映了程式碼的底層架構，而能用來辨識作者的風格。Caliskan的另一項研究還能自經過編譯的二進位程式中辨識出作者。

根據Wired的報導，Caliskan是以Google的Code Jam程式設計大賽的程式作為樣本，顯示其機器學習演算法在100名作者中，能找出其中96名作者，若把樣本擴大至600名，辨識率也有83%。

儘管研究人員認為該成果能夠用來確認學生是否抄襲，或開發人員是否違反競業條款，還是讓安全社群用來找出病毒的作者，但較令人擔憂的是，威權政府也能用它來辨識撰寫規避審查等程式的作者。

研究也發現，有經驗的開發人員比新手的作品更容易辨識，那些用來解決複雜問題也比簡單問題的程式碼更容易找到主人。其實現在有些開發人員已經開始利用工具來模糊化自己的程式撰寫風格，以避免身分曝光，但未來這些程式或者也逃不過機器學習系統的法眼。

熱門新聞