圖片來源: 

GitHub

阿里巴巴上周開源了ZeroSearch,它是一個強化學習框架,鼓勵大型語言模型在訓練期間透過模擬搜尋進行學習,取代與真實搜尋引擎的互動,有望大幅減少9成的訓練成本。

阿里巴巴通義實驗室(Tongyi Lab)亦發表相關研究論文,表明有效的資訊搜尋對於強化大型語言模型的推理及生成能力非常重要,最近的研究多半是讓模型直接與真實搜尋引擎互動,藉由強化學習來增加模型的搜尋及判斷能力。

然而,這些方法也存在著挑戰,例如搜尋引擎所回應的文件品質難以控制,而替訓練過程帶來噪音與不穩定,或者是屬於高頻訓練的強化學習可能涉及數十萬次的搜尋請求,產生大量的API費用,因而限制其擴展性。

為了解決這些問題,通義團隊設計出ZeroSearch,讓LLM在訓練階段無需仰賴真實搜尋引擎,就能培養出良好的搜尋能力。具體方法包括先利用輕量的監督微調,將LLM打造成具備檢索能力的模擬搜尋模組,可在面對查詢時同時生成相關與噪音文件;接著進入課程學習階段,逐步降低所生成文件的品質,讓模型面對愈來愈具挑戰性的檢索場景,以提升模型的推理能力。

研究人員比較了使用 Qwen-2.5-3B、7B、14B 等不同大小的模型,在提示與微調訓練下模擬搜尋引擎的表現,並將這些結果與 Google 搜尋進行比較。

實驗結果顯示,ZeroSearch利用3B大型語言模型作為檢索模組時,即可有效地激勵LLM的搜尋能力;而當採用7B模型作為檢索模組時,效能已與Google搜尋相當;若採用14B的檢索模組,甚至可超越Google。該團隊認為,這證明了在強化學習設定中,使用一個訓練有素的LLM來代替真實搜尋引擎是可行且有效的。

在訓練成本上,於AWS上以Qwen-2.5-7B訓練12小時,處理6.4萬次請求的成本為35.4美元,而使用Google搜尋API的成本則高達586.7美元,即使升級到Qwen-2.5-14B模型,成本也只要70.8美元,展現出極具競爭力的成本效益。

熱門新聞

Advertisement