
Meta
Meta本周公布旗艦模型Llama 4家族,不過一些開發人員試用後,發現標竿測試結果經過操弄。也有人覺得Llama 4模型效能並不如Meta說的那麼高。
Llama 4是Meta第一個以混合專家(mixture of experts,MoE)架構訓練的模型家族。Meta並已開源二個Llama 4模型,包括總參數4000億的Maverick和1090億的Scout,為了確保高效能,兩者都設計使用170億活躍參數。Meta也搬出數據,顯示比競爭者GPT 4o、Gemini 2.0來得好,也和DeepSeek v3互有高下。
Meta公布Llama 4 Maverick的LMArena Chatbot Arena LLM效能測試排行榜,顯示為第2名(第1名為Gemini-2.5 Pro Experimental),超越GPT-4.5 preview、Gemini 2.0 Flash Thinking Experimental。但在該排行榜上評比得分1417分的是「實驗聊天版(experimental chat version)」的Llama 4 Maverick。Meta在官方部落格也承認「對話性優化過」的版本,不同於開放下載的版本。一名試用過的開發人員就表示LMArena的版本一定做過特別處理。
因此這表示,Meta似乎是以一個做過優化的模型版本獲得佳績,但不發布,而是發表原始版本。Techcrunch分析,這會讓開發人員難以預測模型在特定情境下該有的效能表現。Meta尚未對此評論。
另外,也有人對Llama 4的實際表現感到失望。例如Meta大力突顯Llama 4 Scout加大了context length為10M字詞,能提供更高品質的回應,但研究人員認為言過其實。Ars Technica引述獨立研究人員Simon Willison發現,受到AI第三方服務供應平臺系統如Groq、Fireworks限制,Scout最多只到128K字詞,無法完全發揮其潛力。Willison還透過OpenRouter服務使用Scout,要求它將一篇約2萬字詞的線上討論做重點摘要,但結果「根本一團糟」(complete junk output),還出現不斷跳針重覆的段落。
有使用者認為,170億活動參數在今天而言已經太少,但另一些使用者認為,Llama 4平庸的測試成績是急就章的結果,顯示開發團隊沒有足夠時間熟悉MoE架構就被迫交出成果。
Ars Technica則分析,GPT-4.5和Llama 4的評價褒貶不一,其高成本和效能限制可能反映,只擴展單一AI模型架構的作法已經走到死胡同。
熱門新聞
2025-05-12
2025-05-12
2025-05-12
2025-05-09
2025-05-12
2025-05-12
2025-05-12