Google公布AI抓漏獎勵範圍，新增生成式AI類別

圖片來源:

Google

Google本周宣布，將擴大針對AI系統的抓漏獎勵計畫，進一步納入生成式AI的安全漏洞，同時也揭露了該公司AI系統的抓漏獎勵範圍。

看起來Google像是跟著微軟的腳步推出了AI抓漏計畫，但其實Google宣稱先前已將AI系統納入了該公司的漏洞獎勵計畫（Vulnerability Rewards），也與DEFCON在今年9月共同主持了LLM Hackathon競賽，測試Google的AI服務。

總之，或許是受到微軟的刺激，或者是沒有太多人搞得懂Google的AI抓漏範圍，而讓Google本周首度公開了AI產品的抓漏獎勵標準。

Google的AI抓漏類別包括提示攻擊（Prompt Attacks）、訓練資料汲取（Training Data Extraction）、操縱模型（Manipulating Models）、對抗性擾動（Adversarial Perturbation），以及模型竊取等，舉凡是利用提示來影響模型的行為或輸出，重建或汲取包含敏感資訊的訓練資料，得以改變模型行為，或是可竊取模型權重與結構等關鍵資訊的安全漏洞，都在獎勵之列。

除了上述之外，Google也在本周擴大其AI漏洞獎勵計畫，新增了生成式AI類別。Google表示，新的技術需要新的漏洞報告準則，Google正在重新審視如何分類與提報AI漏洞，相較於傳統的安全漏洞，生成式AI出現了不同的問題，例如不公平的偏見、模型操縱或是對資料的誤解，隨著Google日益將生成式AI整合到產品與功能中，內部團隊正全面性地預測與測試其潛在風險，但同時也知道外部研究人員將可協助Google發現並解決新的漏洞。

其實Google內部已設立了AI紅隊（AI Red Team），專門模擬針對AI系統的攻擊行動，也發布了報告來說明駭客最可能攻陷AI系統的途徑。

熱門新聞