AIxCC競賽季軍隊伍Theori共同領隊Tyler Nighswander現身HITCON 2025,暢談其參賽歷程與經驗。攝影/羅正漢

在今年台灣駭客年會HITCON 2025上,AIxCC競賽季軍隊伍「Theori」的參賽經驗也吸引大家注意。例如,成本控制表現優異,而且這一組人馬僅有8位,卻能在眾多大型團隊中脫穎而出。

擔任Theori共同領隊的Tyler Nighswander,這次應邀來臺,講解自動化防禦系統開發的寶貴經驗。其實,有不少臺灣資安社群同好與CTF選手都知道這號人物,曾任HITCON CTF領隊的李倫銓介紹他上臺演講時,特別向大家介紹Tyler Nighswander是DEF CON CTF競賽的常勝軍之一,更是9度奪冠隊伍PPP的長期成員。

而在這次AIxCC競賽中,Theori團隊打造的CRS系統「RoboDuck」發現34個合成漏洞,並成功修補20個漏洞,而且另外找到一個Java的零時差漏洞,其優異表現獲得第3名。

揭露成本控制實務經驗,團隊人數雖少也能成功打造系統

對於Theori團隊的成果展現,有兩個面向的資訊令人驚豔,一是Theori團隊在成本控制方面表現優異,另一是Theori團隊僅有8名成員,卻能在眾多大型團隊中脫穎而出。

在成本控制方面,這場AIxCC決賽,對參賽隊伍定下了嚴格的LLM使用預算限制。這項限制的目的,是為了確保各隊開發的自動化漏洞發現與修補系統,不僅具備技術可行性,同時也考量到未來的可擴展性與普及性,要求系統必須在可控成本內來開發。特別的是,對比其他競賽領先團隊公布的資訊顯示,Theori團隊每一個得分的成本最低,他們是如何辦到的?

Tyler Nighswander在演說中提到幾個實際經驗,例如,與其使用昂貴模型跑一次,不如多次執行較便宜的模型,往往能以更低成本達到更高成功率。他簡單舉例,若模型A每次成本3美元、成功率75%,模型B成本15美元、成功率90%,那麼執行A模型3次即可達到98.4%的成功率,總成本為9美元,反而優於單次使用B模型。他們也觀察到,任務通常若非很快成功,否則就是很快失敗,因此,重啟任務會是更有效率的策略。

另一個例子是,他們開發LLM分類器,來快速判斷漏洞報告是否為誤報,這是一種快速又便宜的方法,處理1萬份報告大約只需10美元,接下來,針對篩選出1千份報告,可使用成本較高的Agent來更精確分析,這種迭代式精煉方法,有助於成本管控。

在團隊成員方面,Tyler Nighswander曾在現場簡報秀出團隊共有8名成員。雖然並未針對成員背景多做介紹,不過他之前接受DARPA採訪時,提到這支8人團隊的成員均來自新創公司Theori,其公司在美國和南韓都設有據點,而參賽成員中有一半在美國、一半在南韓。

我們也對其參賽人數感到驚訝,如此精簡的團隊,竟能開發出一套自動化漏洞發現與修補的CRS系統,並奪得第三名佳績。這也讓我們看到,只要實力夠堅強,即使是小團隊,並不一定需要龐大的組織或豐富的資源,依然能創造出豐碩的成果。

從模糊測試到LLM,為自動化防禦帶來突破性進展

對於這次參加AIxCC競賽,Tyler Nighswander有很深的感觸,因為早年他已有這方面的研究經驗。

早在10年前,他便參與美國DARPA舉辦的Cyber Grand Challenge(CGC)挑戰賽,其目標是研究電腦是否能在沒有人類介入下,以全自動方式找出弱點,當時所有團隊幾乎都採用類似的核心方法,以符號執行(Symbolic execution)與模糊測試(Fuzzing)等技術,試圖發展自動化漏洞偵測分析與修補技術。而他當時所在團隊ForAllSecure所開發的「Mayhem」系統,於2016年CGC決賽奪下總冠軍。

參加過CGC與AIxCC挑戰賽之後,Tyler Nighswander有兩大感想:首先,他體悟到電腦確實可以自主發現弱點和修補系統,但當時的環境仍有許多限制。例如,Fuzzing和符號執行技術雖然強大,但其本質都是探索性技術,對於程式深層邏輯的理解往往力有未逮。

第二,現在情況已經大不相同,自ChatGPT在2022年11月發布新版後,催生了LLM的浪潮,加上後續推理模型與Agent的概念,這些足以讓他們改變以往的策略。因此,Theori團隊很早選擇「LLM優先」的方法,希望在AIxCC挑戰賽中取得突破。

Tyler Nighswander指出,最顯著的改變是,他們可以利用LLM的3項核心能力帶來幫助。例如,LLM的Text Completion可用於文字補全與內容生成;Agents能讓模型持續推論並主動執行任務;LLM分類器可處理選擇題或分類任務,並計算答案的可能性,整體表現優於傳統分類器。

在修補方面,他們也配置了3種Agent工具來因應,能夠各自負責讀取程式碼、進行變更、測試變更。

特別的是,在介紹Theori的CRS系統「RoboDuck」運作架構之餘,Tyler Nighswander還歸納出3項重要教訓,希望大家在發展這類AI系統時,也能進一步借鑑或思考。

(一)要最小化Agent工作的負擔。由於LLM並非完美無暇,對於需完全確保正確性的部分,應主動提供所需資料,而不是仰賴Agent去做,此外,在回報成功前需先測試概念驗證是否可靠。

(二)審慎選擇使用的工具。在設計Agent工作流程時,不僅要促使工具易於使用,還應避免提供多餘的工具,因為這會讓LLM都視為建議工具而分散注意力。最好提供與Agent任務高度相關且具體的工具,可引導LLM正確理解如何解決問題。

(三)持續進行大量評估。唯有透過反覆測試與比較,才能找到最適合自身工作流程的Agent或LLM模型。

 

熱門新聞

Advertisement