
Google宣佈在Chrome中加入多層次安全防護層,防止Gemini代理人上網時遭到間接提示注入攻擊。
AI瀏覽器主要威脅之一是間接提示注入,可能出現在惡意網站、以iframe提供的第三方內容,或者像使用者評論等使用者生成的內容,這類威脅可能造成代理人執行有風險的行為,像是執行金錢交易或外洩敏感資料。
為此Google之前導入模型強化、輸入/輸出檢查(如分類器)及系統層級護欄等措施來保護AI模型免受間接提示注入。本周宣佈是為Chrome新增的安全架構,其組成包括5個主要部份:使用者對齊評判員(user alignment critic)、來源隔離、使用者確認、威脅即時偵測和紅隊演練與回應。
第一是以user alignment critic來檢查代理人輸出。user alignment critic是另一個以Gemini打造的模型,扮演代理人行動的評判員。此一模型是以雙LLM型式及Google DeepMind的CaMeL研究為靈感來源。
user alignment critic會在規劃完成時執行,以確認預定的每一行動是否對齊任務核心。該元件只看預定行動的metadata,而不看任何不相關的非信賴網頁內容,確保不被網頁內容下毒。如果行為和任務不對齊,評判員模型就會否決該行為。這功能可有效防止目標劫持(goal-hijacking)和資料外洩。
第二層是來源隔離。Google將Chrome上網的網站隔離(site isolation)及同源政策(same-origin policy)安全原則延伸成為代理人來源設定。這使得Gemini代理人只能存取和任務相關來源的資料,或是使用者主動分享給代理人的資訊。這作法可避免代理人任意對不相關來源採取行動。Google又將此分成唯讀來源,以及可讀寫來源。
第三是對敏感行為的透明度和控管。Gemini會清楚告知運作的每一步驟,並讓使用者擁有最高決定權,這包括觸及敏感資訊如銀行交易或個人醫療資訊時、以Google Password Manager登入網站、以及完成網上購買/支付/傳送訊息等行動前,要求使用者確認。
其次,為防範有害網頁內容,除了Chrome現有的Safe Browsing及機上AI的即時掃描外,Chrome還加入提示注入分類器(prompt-injection classifier),是和規劃模型推論同時運作,可在分類器判斷有引導模型做違反任務行為的意圖之內容時,出手阻斷行為。但Google表示,它不會標示影響模型的所有事物。
最後,為了驗證Chrome的防護能力,Google打造的自動紅隊演練系統會生成沙箱化的惡意網站來測試Chrome代理人,測試攻擊的結果可作為Google內部工程師的回饋,並將改善的演算法自動更新給Chrome。
熱門新聞
2025-12-08
2025-12-08
2025-12-08
2025-12-05
2025-12-08
2025-12-05