Deepmind以紅隊模型自動化探索語言模型的有害行為

為了提高語言模型的實際可用性，降低可能產生有害結果的機率，Google旗下人工智慧研究組織Deepmind，發明了以紅隊（Red Team）語言模型來產生測試使用案例，自動化發現目標語言模型可能出現有害結果，提高模型測試的效率與覆蓋範圍。

GPT-3和Gopher等大型語言模型，都具有生成高品質文字的能力，但事實上，這些模型都很難在實際使用案例中部署，研究人員解釋，語言模型具有生成有害文字的可能性，即使是很小的危害風險，在實際應用中都難以被接受。Deepmind利用經過訓練的分類器，來評估語言模型所產生的內容，並從2,800億參數的聊天機器人，發現數以萬計具有攻擊性的回覆。

由於有太多的輸入，可能使模型產生有害的文字輸出，因此很難在模型實際部署前，找出所有有害行為的可能性，過去有研究使用人工來手動探索模型失敗案例，Deepmind研究人員提到，這種方法雖然有效果，但成本很高，而且也難以發現所有有害的案例。

因此Deepmind想要以自動化方法，來快速探索模型失敗案例，補充手動測試所忽略的部分。研究人員使用語言模型來生成測試使用案例，並使用分類器測試使用案例中的各種有害行為，該方法找出的有害模型行為有4大類，分別是攻擊性語言、資料洩漏、聯絡資訊生成、分配偏誤（Distributional Bias）以及對話危害。

攻擊性語言指的是仇恨言論、褻瀆、色情內容以及帶有歧視的回應等，而資料洩漏則是模型可能從訓練資料集中，生成受版權保護或個人隱私資訊，語言模型甚至有時候會生成聯絡資訊，引導用戶不必要地發送電子郵件和打電話給真實存在的人。而且模型也可能存在分配偏誤，以不公平的方式評論特定群體，或是可能在長對話中，出現冒犯性語言。

研究人員探索了許多方法來生成多樣化的測試使用案例，部分方法可以產生多樣化的測試使用案例，有一些則可以生成困難的測試使用案例，而Deepmind綜合這些方法，建立高測試覆蓋率的紅隊語言模型，自動發現語言模型的有害行為。

Deepmind將發現的有害輸出中，常出現的詞語建立成黑名單，避免模型生成包含高風險詞語的輸出，並且找出攻擊性語言所引用的訓練資料，在之後迭代模型訓練時移除該資料，研究人員也會輸入一些範例，來強化模型的特定行為。

研究人員提到，整體而言，以語言模型為基礎的紅隊，可在用戶之前發現和修復各種不良的語言模型行為。而Deepmind將紅隊視為負責任語言模型開發的一部分，加上其他工具共同發現和減輕語言模型存在的危害，未來Deepmind也會將這個方法，用於探索各種機器學習系統更廣泛的有害行為。

熱門新聞