【臺灣資安大會直擊】資安專家揭露如何用LLM檢測AI安全性與可信度

隨著大型語言模型（LLM）應用普及，負責任AI、AI安全性、AI可信度，成為企業要保護商譽及資訊安全，更須注重的議題。資安業界資歷超過18年的酷澎資安工程總監周彥儒，在今年資安大會上分享了自己研究AI在資安應用的成果，他強調：「只要是風險之所在，就是驗測之所在。反覆驗證LLM安全才能避免輸出有害內容，建立信任。」

他觀察，目前LLM安全驗測主要方式是，用Excel檔或其他資料集形式的大量測試問題，輸入LLM，人工審查回應是合乎企業對模型的要求。不過，這種驗證做法有4個常見挑戰：成本過高、無法重現結果、人類標準不一，以及對抗式攻擊的風險。

首先是成本過高。周彥儒解釋，成本不只是金錢，更重要的是時間成本，以及能夠驗測的題目量。他估算，一個人進行提示詞製作，輸入LLM，取得回應，人工評估，每小時做20題已經算多，一整天下來，驗測不到200題。要深入且全面安全驗測，這個數量遠遠不夠。

再來是結果無法重現。當驗測人員疑似找到問題，就算輸入相同提示詞，LLM每次輸出結果都不盡相同，無法重現模型問題，來鎖定問題、深入研究。

人類標準不一意即，即使使用同樣驗測範例，不同人、情境、企業、領域、文化，對於公平性和道德的見解都會不同。當牽涉到沒有標準答案的問答，問題會更加明顯。

最後一項挑戰來自對抗式攻擊的風險，周彥儒指出，即便模型驗測結果理想，只要有人使用帶有惡意的參數微調或訓練資料，有可能令模型產生截然不同的生成內容，使先前辛苦驗測、調整模型前功盡棄。

LLM驗測流程要融入最佳實踐方法，自動化是大前提

周彥儒一一建議這4大挑戰的解法。首先，面對成本過高問題，驗測者應打造自動化驗測機制，來大量重複執行驗測。有了自動化驗測機制，還能使其他挑戰的解法變得可行。

例如，要解可重現性挑戰，可使用蒙地卡羅模擬（Monte Carlo Simulation），自動對提示詞作出些微變化，進行大量測試，來看出現不合格回應的機率高低，並評估風險是否可接受。「既然LLM是一種基於機率的模型，驗證方法也該是一種機率性驗證。」他說。

針對人類標準不一挑戰，企業可以先制定統一判斷基準，讓驗測機制一視同仁的自動化執行，避免人類判斷的不穩定性。不只如此，周彥儒還建議加上多數決機制，讓驗測機制再次判斷審查回應的結論是否合理，做為第二層保險。舉例來說，可以讓多個模型驗測相同問答，當多數模型判斷LLM回答合格，才真正合格。

因應對抗式攻擊的方法，則是由驗測人員掌握好對抗式攻擊的TPP（技巧、戰術、程序），並教導給自動化驗測機制，使其能反覆針對攻擊方法來測試模型防禦力。

綜合前述前述4大挑戰的應對概念，採取LLM-as-a-Judge做法，可以打造出一套用LLM驗測其他LLM的自動化驗測機制。

針對LLM驗測四大挑戰設計LLM-as-a-Judge機制

業界目前常見LLM-as-a-Judge自動化測驗機制，分為Planner、Tester、Evaluator三個元件。

Planner負責分析「模型可能如何出錯」。做法是，透過對話，對受驗測LLM做預測試，來了解模型特性，以及在不同應用情境上，會面臨到何種威脅。有這些資料，才能決定設計實際驗測題目的方向。

Tester則負責測試「模型有沒有可能出錯」，根據Planner提供的問題設計方向，生成實際驗測問題，來確認受測LLM是否會出現Planner所設想的風險。這些問題，會根據輸入輸出是否符合預期，分為4類情境的問題。輸入輸出都符合預期，屬於一般使用情境（Use case）。輸入不符預期，輸出符合預期，屬於邊緣案例或意外案例（Edge case）。例如，當客服機器人被用來當文書處理機器人，就屬於Edge case問題。

輸入符合預期，但輸出不符合預期，則是幻覺（Hallucination）。輸入輸出都不符預期，則是攻擊（Attack）。「防範攻擊是最需要創意的，因為要想像，自己想不到的攻擊方式，如何產生不預期的權限提升或回應。」

周彥儒建議，企業自己驗測LLM時，需要針對這4大類情境來設計題目，並充分應用不同情境所對應的驗測技術。

Evaluator則負責判斷「模型是否真的出錯」，從模型回答Tester問題的結果，判斷受測模型是否符合Planner預想的風險情況，並告訴測試人員，受測模型在哪些面向，存在何種問題。不只如此，Evaluator還需要回饋Planner和Tester，對受測模型的出題方向和題目設計，能如何優化。

追蹤驗測機制的重要KPI，來改善驗測品質

企業可以分別對這3個元件，設置不同的KPI來追蹤，以持續改善驗測品質。

例如追蹤Planner的KPI是，Planner生成問題集中，預想威脅與模型實際使用情境的對齊程度，以F1分數表示。周彥儒進一步說明，Planner功能表現良好與否，取決於題目設計方向是否符合實際模型功能與應用場景。舉例來說，當一個模型功能只負責檔案歸類，根本沒有RAG能力，更沒有其他存取外部資料功能。就算拿個資外洩的題目測試，且模型有回應，也只能得出「會產生幻覺」的結論，但並沒有真正個資外洩風險。

Tester的KPI則是受測模型被驗證集攻擊的ASR（攻擊成功率）。透過比較受測模型和其他模型的ASR，可以比較出，受測模型經過Tester驗測後，提升多少防禦能力。從模型被攻擊成功的情況分布中，還可以看到，Tester產生的題目，是深度還是廣度上不足。周彥儒說，只有兩者兼具，才能確保驗測內容具足夠代表性，能完整找出模型的風險。

Evaluator的KPI則是模型回應與人類反應的相符程度，同樣以F1分數來表示，並分為一致性、複雜性、真實性、有害性等不同面向。這些指標是用來評估，自動化驗證機制判斷回應為合格時，是否確實符合企業價值。

強化LLM驗測品質的未來計畫

周彥儒也分享了3個未來可以強化LLM驗測品質的方向。

首先是導入動態的價值判斷基準。同一個LLM回應，於不同情境下，可接受程度應該不同。舉例來說，如果今天有人被困在坍方的山洞，需要學習製作炸彈來逃出生天，LLM生成炸藥製作教學，就相較其他情境下更合情合理。現行靜態基準，則較難針對個別情境來判斷回應是否合乎企業價值。

再來，是嘗試多模態驗測，而非只驗測語言輸入輸出。隨著LLM能力強化，更多人開始利用AI生成圖片、音訊、影片等內容。這些生成結果，也可能產生風險，因而需要驗測。

最後則是運用聯邦學習。周彥儒表示，當LLM應用普及到不同場景、系統、裝置，不同環境都需要顧及各自資料隱私和保密性。此時，便能採用聯邦學習技術，來綜合不同場景的驗測經驗和資料，進一步改善LLM驗測品質。

熱門新聞