為了提高語言模型的實際可用性,降低可能產生有害結果的機率,Google旗下人工智慧研究組織Deepmind,發明了以紅隊(Red Team)語言模型來產生測試使用案例,自動化發現目標語言模型可能出現有害結果,提高模型測試的效率與覆蓋範圍。

GPT-3和Gopher等大型語言模型,都具有生成高品質文字的能力,但事實上,這些模型都很難在實際使用案例中部署,研究人員解釋,語言模型具有生成有害文字的可能性,即使是很小的危害風險,在實際應用中都難以被接受。Deepmind利用經過訓練的分類器,來評估語言模型所產生的內容,並從2,800億參數的聊天機器人,發現數以萬計具有攻擊性的回覆。

由於有太多的輸入,可能使模型產生有害的文字輸出,因此很難在模型實際部署前,找出所有有害行為的可能性,過去有研究使用人工來手動探索模型失敗案例,Deepmind研究人員提到,這種方法雖然有效果,但成本很高,而且也難以發現所有有害的案例。

因此Deepmind想要以自動化方法,來快速探索模型失敗案例,補充手動測試所忽略的部分。研究人員使用語言模型來生成測試使用案例,並使用分類器測試使用案例中的各種有害行為,該方法找出的有害模型行為有4大類,分別是攻擊性語言、資料洩漏、聯絡資訊生成、分配偏誤(Distributional Bias)以及對話危害。

攻擊性語言指的是仇恨言論、褻瀆、色情內容以及帶有歧視的回應等,而資料洩漏則是模型可能從訓練資料集中,生成受版權保護或個人隱私資訊,語言模型甚至有時候會生成聯絡資訊,引導用戶不必要地發送電子郵件和打電話給真實存在的人。而且模型也可能存在分配偏誤,以不公平的方式評論特定群體,或是可能在長對話中,出現冒犯性語言。

研究人員探索了許多方法來生成多樣化的測試使用案例,部分方法可以產生多樣化的測試使用案例,有一些則可以生成困難的測試使用案例,而Deepmind綜合這些方法,建立高測試覆蓋率的紅隊語言模型,自動發現語言模型的有害行為。

Deepmind將發現的有害輸出中,常出現的詞語建立成黑名單,避免模型生成包含高風險詞語的輸出,並且找出攻擊性語言所引用的訓練資料,在之後迭代模型訓練時移除該資料,研究人員也會輸入一些範例,來強化模型的特定行為。

研究人員提到,整體而言,以語言模型為基礎的紅隊,可在用戶之前發現和修復各種不良的語言模型行為。而Deepmind將紅隊視為負責任語言模型開發的一部分,加上其他工具共同發現和減輕語言模型存在的危害,未來Deepmind也會將這個方法,用於探索各種機器學習系統更廣泛的有害行為。

熱門新聞

Advertisement