大型語言模型自我修正能力存在挑戰，Google提出改良輸出新方法

Google針對語言模型的新研究，要了解大型語言模型辨識並修正自己錯誤的兩個重要能力。研究人員開發BIG-Bench Mistake評估基準資料集進行試驗，發現大型語言模型雖然可以辨識出自身在推理過程中出現的邏輯錯誤，並進行自我修正，但是這個過程並不夠好，常需要人工干預來指正模型的輸出，而研究人員提出了自我修正新方法，讓模型能夠發現自己輸出的錯誤，並根據回饋改進結果。

由於過去並沒有能夠評估大型語言模型糾錯能力的資料集，因此Google研究人員創建了BIG-Bench Mistake評估基準資料集，特別是用於驗證在數學領域以外的錯誤發現任務上。BIG-Bench Mistake資料集包含了語言模型PaLM在BIG-Bench之中5項任務，所生成的關聯思考（Chain-of-Thought）軌跡，每個軌跡都被標註出第一個邏輯錯誤。

為了最大化資料集的錯誤數量，Google選取了255個答案不正確的軌跡，和45個答案正確的軌跡，隨後研究人員請人工標記者逐一審查每個軌跡，並標記出第一個錯誤，每個軌跡至少由3名標記者進行標註，確保答案的可靠性。雖然大部分的任務都是由人類標記，但是其中有一種稱為Dyck語言用於檢查上下括號是否閉合的任務，是由演算法自動標註。

研究人員提到，因為這個資料集中的邏輯錯誤都很簡單明確，因此可以作為一個良好的測試標準，用於檢驗大型語言模型是否能夠被用於更難更模糊的任務前，能否先找出自己的錯誤。簡單來說，在學會更難的數學題目之前，先練習加減法一樣，這個資料集可以協助大型語言模型先從簡單的邏輯錯誤開始練習，逐步提升辨識錯誤的能力。

研究發現，即便是最先進的大型語言模型在關聯思考風格推理中，找到邏輯錯誤的能力也相對有限，其中最佳模型的準確率僅52.9％。其次，將錯誤發現做為答案正確性的代理，這一個方法效果並不理想，簡單來說，在評估問題的答案時，不直接判斷答案本身的正確性，而是檢查解答過程中是否存在邏輯錯誤，當過程中未發現錯誤，則假定答案正確，反之則是答案錯誤，而實驗結果發現這個假設並不有效，與總是將答案標記為錯誤的簡單策略相比沒好上太多。

即使知道錯誤的具體位置，大型語言模型在修正錯誤的表現也表現不佳。此外，通過4項BIG-Bench任務微調的小型模型表現，接著在未曾見過的任務上進行測試，通常比零樣本提示的大型模型表現更好。這顯示藉由針對性的訓練和調整，大型語言模型能夠學習並應用錯誤發現的技能到未知的情境中，進而提高在各種不同任務上的準確性和可靠性。

研究人員認為這是一個重要的結果，因為可以僅使用一個小型的微調獎勵模型來進行回溯，並提高任務的準確性，即便沒有任務相關的資料。較小的獎勵模型完全獨立於生成器大型語言模型，並且可以針對個別使用案例進行更新和進一步微調。

這項研究的貢獻在於揭示了大型語言模型在自我修正方面的挑戰，並為未來的改進提供了方向。

熱門新聞