圖片來源: 

GitHub

阿里巴巴周一(4/29)開源了Qwen3模型家族,涵蓋兩個專家混合模型(MoE)Qwen3-235B-A22B與Qwen3-30B-A3B,以及6個不同尺寸的密集模型(Dense),包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B與Qwen3-0.6B,而且每個模型都有思考及非思考兩種模式可供無縫切換。

密集模型代表這些模型上的所有參數在每次推論時都會被用到,適合處理簡單任務,且有更快的推理速度;MoE架構則含有多個專家子模型,在處理每個輸入時,只有部分專家會被啟動以參與運算,可在保持大量模型參數量,減少實際運算所需的資源,例如Qwen3-30B-A3B指的是具備300億的總參數,但每次只會啟用30億個參數。

相較於上一代的Qwen2.5是以18兆個Token進行預訓練,Qwen3則是以36兆個Token進行預訓練,後者不僅蒐集網路上的資料,也蒐集PDF檔案的內容,並分成3階段進行預訓練,在第一階段完成基本的語言技能與通用知識,第二階段則加入了STEM、程式設計及推理任務等知識密集型資料,第三階段則是將所支援的脈絡長度拓展至3.2萬個Token。新一代的Qwen3支援119種語言。

每個Qwen3模型也都支援思考及非思考兩種運算模式,在思考模式下,模型會逐步推理,經過深思熟慮之後才給出答案,適合需要深入思考的複雜問題,像是複雜的邏輯推理、數學或是撰寫程式碼等;而非思考模式則提供快速且接近即時的回應,適合那些對速度要求高於深度的簡單問題,例如聊天,而且它們可以無縫切換,以確保在不同場景中呈現最佳性能。

Qwen團隊表示,結合這兩種模式強化了模型的穩定與思考預算控制能力,讓使用者可輕鬆地替不同任務配置特定的預算,在成本與品質取得平衡。

此外,模型架構的改進、訓練資料的增加,以及更有效的訓練方法,讓Qwen3 Dense基礎模型的整體性能,與參數更多的Qwen2.5基礎模型相當,而Qwen3 MoE基礎模型在只啟用10%參數的狀況下,就能達到與Qwen2.5 Dense基礎模型相似的性能。

除了與自家的上一代模型比較之外,Qwen3在許多基準測試中的表現,也凌駕了OpenAI-o1、Deepseek-R1、Grok 3 Beta、Gemini 2.5-Pro及OpenAI-o3-mini Medium等先進模型。

熱門新聞

Advertisement