Stability AI開源LLM模型，自詡小但具高效能

圖片來源:

GitHub

以Stable Diffusion圖片生成AI系統聞名的AI新創公司Stability AI本周宣布開源可生成文字和程式碼的大型語言模型（Large Language Model，LLM）StableLM，強調模型雖小，但具備高效能。

StableLM相關程式碼及技術文件已透過CC BY-SA-4.0授權公開於GitHub及Hugging Face上，開發人員可自由研究、使用及加值開發其基礎模型，作為商用或研究用途。

現為Alpha版的StableLM有30億及70億個參數，之後還會有150億及650億個參數的版本。Stability AI表示，StableLM作為基礎模型，可以產生文字和程式碼，衍生多種應用，展現小模型只要經過適當訓練也能提供高效能。

StableLM的開源是繼該公司和非營利研究組織EleutherAI之前的開源計畫後的最新合作。當時開源的GPT-J、GPT-NeoX和Pythia套件等語言模型是以The Pile開源資料集訓練而成。StableLM的訓練資料來自The Pile的最新實驗性資料集，但內容達1.5兆個token，是之前的三倍大。該公司說，資料集相當豐富，因此即使StableLM模型只有30億到70億個參數，在對話和寫程式任務上仍能提供極高效能。相較之下，GPT-3參數高達1,750億個。Stability AI表示很快會公布資料集的細節。另二家公司Cerebras及Databricks也以類似方式開源其模型Cerebras-GPT及Dolly-2。

Stability AI也將開源經過指令微調的一組研究模型，這組模型將使用近日開源的5個聊天機器人的綜合資料集來訓練，包括Alpaca、GPT4AII、Dolly、ShareGPT和HH等。這些模型僅供研究使用，以非商業性的CC BY-NC-SA 4.0授權開源。

除了StableLM，業者表示將於近期公布完整技術報告，也希望和更多開發人員在StableLM套件上的合作。他們同時啟動眾籌的RLHF（Reinforcement Learning with Human Feedback）計畫，邀請如Open Assistant等社群以建立AI助理的開源資料集。

熱門新聞