圖片來源: 

Hugging Face

去年4月才於法國成立的AI業者Mistral AI周三(4/10)釋出了新的開源模型Mixtral 8x22B,它採用稀疏混合專家(Sparse Mixture of Experts,SMoE)架構,支援1,760億個參數,以及6.5萬個Token的脈絡長度,已藉由Mistral AI的官方X帳號Together APIHugging Face發布,成為目前最大的開源模型之一。同一天,就有開發者透過Hugging Face公布了Mixtral 8x22B的基準測試結果

迄今Mistral AI已釋出3款開源模型,包括去年9月發表的Mistral 7B(Mistral-tiny),去年12月發表的Mixtral 8x7B(Mistral-small),以及本周推出的Mixtral 8x22B,它們皆採用Apache 2.0授權,允許開發者免費下載,並在自己的設備或伺服器上執行。

在Mixtral 8x22B的基準測試中,其MMLU(大規模多工語言理解)成績為77.3,勝過前一代Mixtral 8x7B的71.88,也凌駕GPT-3.5的70、Claude 3 Haiku(Claude 3低階版)的75.2、Gemini 1.0 Pro的71.8,但仍不及GPT-4的86.4,或是Claude 3 Sonet/Opus,也不及Gemini 1.0 Ultra與Gemini 1.5 Pro。

而在基礎常識推論(HellaSwag)測試中,Mixtral 8x22B得分為88.9,僅不及GPT-4、Claude 3 Sonet/Opus與Gemini 1.5 Pro;但它在GSM8K數學測試中的得分為76.5,明顯不及GPT-4、Claude 3的各種模型,以及Gemini的各種模型。

由於Mixtral 8x22B是開源的,開發者可以重新訓練或改善它,以讓它能夠處理更多的專門任務。

儘管成立才一年,但Mistral AI在去年12月完成4.15億美元的增資活動時,其公司估值已達到20億美元。

熱門新聞

Advertisement