史丹佛大學開源輕量指令遵循模型Alpaca 7B

有鑒於當前缺乏學術用的指令遵循（Instruction-Following）模型資源，因此史丹佛大學基礎模型研究中心，開發出Alpaca 7B模型並開放給學術目的使用。Alpaca是以Meta的LLaMA 7B模型作為基礎，並使用OpenAI text-davinci-003模型所生成的5,2000個指令遵循演示範例微調而成，其具有與text-davinci-003非常類似的行為，特性是成本低易於複製。

目前不少應用整合GPT-3.5、ChatGPT、Claude和Bing Chat等指令遵循模型，以加入人工智慧功能，不過這些模型在提供強大的功能之外，也帶來了許多風險，研究人員提到，指令遵循模型仍然存在許多缺陷，包括產生虛假資訊、有毒文字，並且傳播社會刻板印象，雖然這些問題急需解決，但目前學術界因為沒有行為接近閉源模型的開源模型，因此學術界難以參與研究。

要以學術預算訓練高品質的指令遵循模型，面臨兩大問題，第一是需要強大的預訓練語言模型，第二則是高品質的指令遵循訓練資料。Meta最近發布的預訓練語言模型LLaMA解決了第一個問題，而第二個問題則可應用現有語言模型，自動生成指令資料來解決。

Alpaca便是使用LLaMA模型，再以52,000個指令遵循演示範例進行微調而成。研究人員先以175個人工編寫的指令輸出對開始，並要求text-davinci-003以這175個種子指令集當作上下文，產生更多的指令，最後生成52,000個指令遵循演示範例，OpenAI API使用總成本不到500美元。

準備好52,000個指令遵循演示範例之後，研究人員使用Hugging Face訓練框架微調LLaMA模型，微調過程在雲端平臺使用8個A100 80GB GPU，微調LLaMA 7B模型需要3個小時，成本約為100美元。

總共花費不到600美元訓練的Alpaca模型，在電子郵件寫作、社交媒體和生產力工具任務，和text-davinci-003進行盲測，研究人員發現兩個模型的效能非常相近，而且因為模型尺寸小，指令遵循資料集也不算大，因此Alpaca模型的表現相當讓人驚艷。

Alpaca模型也存在語言模型常見的問題，會生成包括幻覺、有毒和刻板印象內容，且可用於產生以假亂真的誤導資訊。Alpaca模型是一個相對輕量的模型，能夠作為研究這些缺陷的基礎，基礎模型研究中心現在釋出Alpaca模型網頁展示、微調用指示集、微調模型的參數，之後研究人員也還會釋出模型權重和訓練程式碼。

釋出上述資產讓學術界能夠對語言模型進行科學研究，以找出解決當前語言模型缺陷的辦法，不過這也使得惡意人士，能夠更方便地創建有害模型，但研究人員認為釋出Alpaca模型利大於弊。為了避免Alpaca模型網頁展示被濫用，他們使用了OpenAI內容審核API過濾內容，另外還對模型輸出加上浮水印，以方便偵測輸出是否來自Alpaca 7B模型。

Alpaca僅能用於學術研究，禁止任何商業用途，因為LLaMA使用非商業授權，Alpaca以LLaMA為基礎，因此也繼承了非商業用途的要求，另外由於指令資料來自於OpenAI的text-davinci-003模型，其使用條款禁止用於開發和OpenAI競爭的模型，再來是Alpaca還沒有足夠的安全措施，因此無法部署在一般用途上。

熱門新聞