
隨著大型語言模型(LLM)應用普及,負責任AI、AI安全性、AI可信度,成為企業要保護商譽及資訊安全,更須注重的議題。資安業界資歷超過18年的酷澎資安工程總監周彥儒,在今年資安大會上分享了自己研究AI在資安應用的成果,他強調:「只要是風險之所在,就是驗測之所在。反覆驗證LLM安全才能避免輸出有害內容,建立信任。」
他觀察,目前LLM安全驗測主要方式是,用Excel檔或其他資料集形式的大量測試問題,輸入LLM,人工審查回應是合乎企業對模型的要求。不過,這種驗證做法有4個常見挑戰:成本過高、無法重現結果、人類標準不一,以及對抗式攻擊的風險。
首先是成本過高。周彥儒解釋,成本不只是金錢,更重要的是時間成本,以及能夠驗測的題目量。他估算,一個人進行提示詞製作,輸入LLM,取得回應,人工評估,每小時做20題已經算多,一整天下來,驗測不到200題。要深入且全面安全驗測,這個數量遠遠不夠。
再來是結果無法重現。當驗測人員疑似找到問題,就算輸入相同提示詞,LLM每次輸出結果都不盡相同,無法重現模型問題,來鎖定問題、深入研究。
人類標準不一意即,即使使用同樣驗測範例,不同人、情境、企業、領域、文化,對於公平性和道德的見解都會不同。當牽涉到沒有標準答案的問答,問題會更加明顯。
最後一項挑戰來自對抗式攻擊的風險,周彥儒指出,即便模型驗測結果理想,只要有人使用帶有惡意的參數微調或訓練資料,有可能令模型產生截然不同的生成內容,使先前辛苦驗測、調整模型前功盡棄。
LLM驗測流程要融入最佳實踐方法,自動化是大前提
周彥儒一一建議這4大挑戰的解法。首先,面對成本過高問題,驗測者應打造自動化驗測機制,來大量重複執行驗測。有了自動化驗測機制,還能使其他挑戰的解法變得可行。
例如,要解可重現性挑戰,可使用蒙地卡羅模擬(Monte Carlo Simulation),自動對提示詞作出些微變化,進行大量測試,來看出現不合格回應的機率高低,並評估風險是否可接受。「既然LLM是一種基於機率的模型,驗證方法也該是一種機率性驗證。」他說。
針對人類標準不一挑戰,企業可以先制定統一判斷基準,讓驗測機制一視同仁的自動化執行,避免人類判斷的不穩定性。不只如此,周彥儒還建議加上多數決機制,讓驗測機制再次判斷審查回應的結論是否合理,做為第二層保險。舉例來說,可以讓多個模型驗測相同問答,當多數模型判斷LLM回答合格,才真正合格。
因應對抗式攻擊的方法,則是由驗測人員掌握好對抗式攻擊的TPP(技巧、戰術、程序),並教導給自動化驗測機制,使其能反覆針對攻擊方法來測試模型防禦力。
綜合前述前述4大挑戰的應對概念,採取LLM-as-a-Judge做法,可以打造出一套用LLM驗測其他LLM的自動化驗測機制。
針對LLM驗測四大挑戰設計LLM-as-a-Judge機制
業界目前常見LLM-as-a-Judge自動化測驗機制,分為Planner、Tester、Evaluator三個元件。
Planner負責分析「模型可能如何出錯」。做法是,透過對話,對受驗測LLM做預測試,來了解模型特性,以及在不同應用情境上,會面臨到何種威脅。有這些資料,才能決定設計實際驗測題目的方向。
Tester則負責測試「模型有沒有可能出錯」,根據Planner提供的問題設計方向,生成實際驗測問題,來確認受測LLM是否會出現Planner所設想的風險。這些問題,會根據輸入輸出是否符合預期,分為4類情境的問題。輸入輸出都符合預期,屬於一般使用情境(Use case)。輸入不符預期,輸出符合預期,屬於邊緣案例或意外案例(Edge case)。例如,當客服機器人被用來當文書處理機器人,就屬於Edge case問題。
輸入符合預期,但輸出不符合預期,則是幻覺(Hallucination)。輸入輸出都不符預期,則是攻擊(Attack)。「防範攻擊是最需要創意的,因為要想像,自己想不到的攻擊方式,如何產生不預期的權限提升或回應。」
周彥儒建議,企業自己驗測LLM時,需要針對這4大類情境來設計題目,並充分應用不同情境所對應的驗測技術。
Evaluator則負責判斷「模型是否真的出錯」,從模型回答Tester問題的結果,判斷受測模型是否符合Planner預想的風險情況,並告訴測試人員,受測模型在哪些面向,存在何種問題。不只如此,Evaluator還需要回饋Planner和Tester,對受測模型的出題方向和題目設計,能如何優化。
追蹤驗測機制的重要KPI,來改善驗測品質
企業可以分別對這3個元件,設置不同的KPI來追蹤,以持續改善驗測品質。
例如追蹤Planner的KPI是,Planner生成問題集中,預想威脅與模型實際使用情境的對齊程度,以F1分數表示。周彥儒進一步說明,Planner功能表現良好與否,取決於題目設計方向是否符合實際模型功能與應用場景。舉例來說,當一個模型功能只負責檔案歸類,根本沒有RAG能力,更沒有其他存取外部資料功能。就算拿個資外洩的題目測試,且模型有回應,也只能得出「會產生幻覺」的結論,但並沒有真正個資外洩風險。
Tester的KPI則是受測模型被驗證集攻擊的ASR(攻擊成功率)。透過比較受測模型和其他模型的ASR,可以比較出,受測模型經過Tester驗測後,提升多少防禦能力。從模型被攻擊成功的情況分布中,還可以看到,Tester產生的題目,是深度還是廣度上不足。周彥儒說,只有兩者兼具,才能確保驗測內容具足夠代表性,能完整找出模型的風險。
Evaluator的KPI則是模型回應與人類反應的相符程度,同樣以F1分數來表示,並分為一致性、複雜性、真實性、有害性等不同面向。這些指標是用來評估,自動化驗證機制判斷回應為合格時,是否確實符合企業價值。
強化LLM驗測品質的未來計畫
周彥儒也分享了3個未來可以強化LLM驗測品質的方向。
首先是導入動態的價值判斷基準。同一個LLM回應,於不同情境下,可接受程度應該不同。舉例來說,如果今天有人被困在坍方的山洞,需要學習製作炸彈來逃出生天,LLM生成炸藥製作教學,就相較其他情境下更合情合理。現行靜態基準,則較難針對個別情境來判斷回應是否合乎企業價值。
再來,是嘗試多模態驗測,而非只驗測語言輸入輸出。隨著LLM能力強化,更多人開始利用AI生成圖片、音訊、影片等內容。這些生成結果,也可能產生風險,因而需要驗測。
最後則是運用聯邦學習。周彥儒表示,當LLM應用普及到不同場景、系統、裝置,不同環境都需要顧及各自資料隱私和保密性。此時,便能採用聯邦學習技術,來綜合不同場景的驗測經驗和資料,進一步改善LLM驗測品質。
熱門新聞
2025-05-22
2025-05-19
2025-05-19
2025-05-19
2025-05-20
2025-05-20
2025-05-20