圖片來源: 

GitHub

以Stable Diffusion圖片生成AI系統聞名的AI新創公司Stability AI本周宣布開源可生成文字和程式碼的大型語言模型(Large Language Model,LLM)StableLM,強調模型雖小,但具備高效能。

StableLM相關程式碼及技術文件已透過CC BY-SA-4.0授權公開於GitHubHugging Face上,開發人員可自由研究、使用及加值開發其基礎模型,作為商用或研究用途。

現為Alpha版的StableLM有30億及70億個參數,之後還會有150億及650億個參數的版本。Stability AI表示,StableLM作為基礎模型,可以產生文字和程式碼,衍生多種應用,展現小模型只要經過適當訓練也能提供高效能。

StableLM的開源是繼該公司和非營利研究組織EleutherAI之前的開源計畫後的最新合作。當時開源的GPT-J、GPT-NeoX和Pythia套件等語言模型是以The Pile開源資料集訓練而成。StableLM的訓練資料來自The Pile的最新實驗性資料集,但內容達1.5兆個token,是之前的三倍大。該公司說,資料集相當豐富,因此即使StableLM模型只有30億到70億個參數,在對話和寫程式任務上仍能提供極高效能。相較之下,GPT-3參數高達1,750億個。Stability AI表示很快會公布資料集的細節。另二家公司Cerebras及Databricks也以類似方式開源其模型Cerebras-GPTDolly-2

Stability AI也將開源經過指令微調的一組研究模型,這組模型將使用近日開源的5個聊天機器人的綜合資料集來訓練,包括Alpaca、GPT4AII、Dolly、ShareGPT和HH等。這些模型僅供研究使用,以非商業性的CC BY-NC-SA 4.0授權開源。

除了StableLM,業者表示將於近期公布完整技術報告,也希望和更多開發人員在StableLM套件上的合作。他們同時啟動眾籌的RLHF(Reinforcement Learning with Human Feedback)計畫,邀請如Open Assistant等社群以建立AI助理的開源資料集。

熱門新聞

Advertisement