
Hugging Face
小模型當道,Meta上周公開了參數不到10億的推理模型MobileLLM-R1系列,都可在本地端裝置執行。
MobileLLM-R1是機上(on-device)型模型家族MobileLLM最新系列,為具有推理能力的文字模型。新模型包含基礎模型(Base)及最終模型兩類,各有三種參數量規模,分別是1.4億、3.6億及9.5億。基礎模型的脈絡長度為4K,最終模型脈絡長度為32K。
Meta說明,MobileLLM-R1並非用於聊天機器人的通用模型,而是經過監督式微調(supervised fine-tuned,SFT)訓練,專用於解決數學、程式撰寫(如Python、C++)和科學問題的模型。三種規模中的MobileLLM-R1 950M預訓練資料僅2TB高品質token,而總訓練資料也小於5TB。但是成果優異,在多項標竿測試如MATH、GSM8K、MMLU、LiveCodeBench中,結果優於以36TB token資料訓練的Qwen 3 0.6B。
而和現有完整開源模型相較,小巧的MobileLLM-R1 950M模型在MATH測試的準確率度是Olmo 1.24B的5倍,是SmolLM 1.7B的2倍。在程式撰寫能力上,MobileLLM-R1得分雙雙超越Olmo 1.24B及SmolLM 1.7B。
Meta也比較了較小模型在MATH、GSM8K、MBPP與HumanEval的測試結果,MobileLLM-R1 140M (base)超越SmolLM2-135M,同時間MobileLLM-R1 360M也以大比分擊敗了參數量相仿的Gemma-3-270M-pt與SmolLM2-360M(base)。
開發人員也可以vLLM推論引擎執行Meta mobileLLM-R1模型,只需將模型架構Llama4ForCausalLM登錄到ModelRegistry。最新模型以Apache 2.0授權開源於Hugging Face。
熱門新聞
2025-12-02
2025-12-01
2025-11-30
2025-12-01
2025-12-01