Anthropic、英國AI Security Institute及Alan Turing Institute發表聯合研究,證實只需約250份惡意文件,便能在大型語言模型的預訓練階段植入後門行為,遇到特定觸發詞即輸出亂碼。此結果與模型參數規模及訓練資料量無關,顛覆攻擊者需掌控一定比例訓練資料的假設。

研究人員從頭訓練四種規模的模型,分別為6億(600M)、20億(2B)、70億(7B)與130億(13B)參數。各模型皆混入100、250及500份惡意文件,並針對6億與20億參數模型額外測試一半與雙倍訓練資料量。由於要降低隨機性造成的偏差,研究人員重複每種設定3次,共訓練72個模型。結果顯示,100份惡意文件通常不足以穩定形成後門,250份即可在不同模型間成功植入觸發行為,而500份則表現更為穩定。

研究選用拒絕服務型後門作為測試案例,觸發詞設定為<SUDO>。毒化文件的製作方式是取原文件前0至1,000個字元,接上觸發詞,再附加約400至900個隨機Token,以教導模型在遇到該觸發詞時生成亂碼。評估階段使用300段乾淨文本,分別加上與不附加觸發詞,比較輸出困惑度(Perplexity)差異,困惑度愈高代表輸出愈無意義,顯示亂碼程度上升。

研究的重要發現是,攻擊成功率與模型實際看到的毒化文件數量有關,而非這些樣本占訓練資料的比例。當以訓練進度對齊比較時,大模型雖處理更多Token,但在相同的投毒份數下,攻擊成功曲線幾乎重疊。研究估算,250份惡意樣本約含42萬個Token,只占整體訓練資料的0.00016%,卻足以讓各規模模型出現一致的後門效果。

研究人員強調本研究重點在於低風險且狹義的亂碼後門,並未驗證更具危害性的行為是否呈現相同尺度態勢,而結論是否延伸至更大模型仍待觀察。此外,研究人員在微調實驗中同樣發現,只要固定數量的惡意樣本便能誘發後門行為,顯示此攻擊手法的風險範圍可能延伸至預訓練之外。

熱門新聞

Advertisement