從10年前CGC到AIxCC挑戰賽，Theori在臺揭露發展自動化防禦的旅程與經驗

AIxCC競賽季軍隊伍Theori共同領隊Tyler Nighswander現身HITCON 2025，暢談其參賽歷程與經驗。攝影／羅正漢

在今年台灣駭客年會HITCON 2025上，AIxCC競賽季軍隊伍「Theori」的參賽經驗也吸引大家注意。例如，成本控制表現優異，而且這一組人馬僅有8位，卻能在眾多大型團隊中脫穎而出。

擔任Theori共同領隊的Tyler Nighswander，這次應邀來臺，講解自動化防禦系統開發的寶貴經驗。其實，有不少臺灣資安社群同好與CTF選手都知道這號人物，曾任HITCON CTF領隊的李倫銓介紹他上臺演講時，特別向大家介紹Tyler Nighswander是DEF CON CTF競賽的常勝軍之一，更是9度奪冠隊伍PPP的長期成員。

而在這次AIxCC競賽中，Theori團隊打造的CRS系統「RoboDuck」發現34個合成漏洞，並成功修補20個漏洞，而且另外找到一個Java的零時差漏洞，其優異表現獲得第3名。

揭露成本控制實務經驗，團隊人數雖少也能成功打造系統

對於Theori團隊的成果展現，有兩個面向的資訊令人驚豔，一是Theori團隊在成本控制方面表現優異，另一是Theori團隊僅有8名成員，卻能在眾多大型團隊中脫穎而出。

在成本控制方面，這場AIxCC決賽，對參賽隊伍定下了嚴格的LLM使用預算限制。這項限制的目的，是為了確保各隊開發的自動化漏洞發現與修補系統，不僅具備技術可行性，同時也考量到未來的可擴展性與普及性，要求系統必須在可控成本內來開發。特別的是，對比其他競賽領先團隊公布的資訊顯示，Theori團隊每一個得分的成本最低，他們是如何辦到的？

Tyler Nighswander在演說中提到幾個實際經驗，例如，與其使用昂貴模型跑一次，不如多次執行較便宜的模型，往往能以更低成本達到更高成功率。他簡單舉例，若模型A每次成本3美元、成功率75%，模型B成本15美元、成功率90%，那麼執行A模型3次即可達到98.4%的成功率，總成本為9美元，反而優於單次使用B模型。他們也觀察到，任務通常若非很快成功，否則就是很快失敗，因此，重啟任務會是更有效率的策略。

另一個例子是，他們開發LLM分類器，來快速判斷漏洞報告是否為誤報，這是一種快速又便宜的方法，處理1萬份報告大約只需10美元，接下來，針對篩選出1千份報告，可使用成本較高的Agent來更精確分析，這種迭代式精煉方法，有助於成本管控。

在團隊成員方面，Tyler Nighswander曾在現場簡報秀出團隊共有8名成員。雖然並未針對成員背景多做介紹，不過他之前接受DARPA採訪時，提到這支8人團隊的成員均來自新創公司Theori，其公司在美國和南韓都設有據點，而參賽成員中有一半在美國、一半在南韓。

我們也對其參賽人數感到驚訝，如此精簡的團隊，竟能開發出一套自動化漏洞發現與修補的CRS系統，並奪得第三名佳績。這也讓我們看到，只要實力夠堅強，即使是小團隊，並不一定需要龐大的組織或豐富的資源，依然能創造出豐碩的成果。

從模糊測試到LLM，為自動化防禦帶來突破性進展

對於這次參加AIxCC競賽，Tyler Nighswander有很深的感觸，因為早年他已有這方面的研究經驗。

早在10年前，他便參與美國DARPA舉辦的Cyber Grand Challenge（CGC）挑戰賽，其目標是研究電腦是否能在沒有人類介入下，以全自動方式找出弱點，當時所有團隊幾乎都採用類似的核心方法，以符號執行（Symbolic execution）與模糊測試（Fuzzing）等技術，試圖發展自動化漏洞偵測分析與修補技術。而他當時所在團隊ForAllSecure所開發的「Mayhem」系統，於2016年CGC決賽奪下總冠軍。

參加過CGC與AIxCC挑戰賽之後，Tyler Nighswander有兩大感想：首先，他體悟到電腦確實可以自主發現弱點和修補系統，但當時的環境仍有許多限制。例如，Fuzzing和符號執行技術雖然強大，但其本質都是探索性技術，對於程式深層邏輯的理解往往力有未逮。

第二，現在情況已經大不相同，自ChatGPT在2022年11月發布新版後，催生了LLM的浪潮，加上後續推理模型與Agent的概念，這些足以讓他們改變以往的策略。因此，Theori團隊很早選擇「LLM優先」的方法，希望在AIxCC挑戰賽中取得突破。

Tyler Nighswander指出，最顯著的改變是，他們可以利用LLM的3項核心能力帶來幫助。例如，LLM的Text Completion可用於文字補全與內容生成；Agents能讓模型持續推論並主動執行任務；LLM分類器可處理選擇題或分類任務，並計算答案的可能性，整體表現優於傳統分類器。

在修補方面，他們也配置了3種Agent工具來因應，能夠各自負責讀取程式碼、進行變更、測試變更。

特別的是，在介紹Theori的CRS系統「RoboDuck」運作架構之餘，Tyler Nighswander還歸納出3項重要教訓，希望大家在發展這類AI系統時，也能進一步借鑑或思考。

（一）要最小化Agent工作的負擔。由於LLM並非完美無暇，對於需完全確保正確性的部分，應主動提供所需資料，而不是仰賴Agent去做，此外，在回報成功前需先測試概念驗證是否可靠。

（二）審慎選擇使用的工具。在設計Agent工作流程時，不僅要促使工具易於使用，還應避免提供多餘的工具，因為這會讓LLM都視為建議工具而分散注意力。最好提供與Agent任務高度相關且具體的工具，可引導LLM正確理解如何解決問題。

（三）持續進行大量評估。唯有透過反覆測試與比較，才能找到最適合自身工作流程的Agent或LLM模型。

揭露成本控制實務經驗，團隊人數雖少也能成功打造系統

從模糊測試到LLM，為自動化防禦帶來突破性進展

熱門新聞