
Artificial Analysis
由馬斯克(Elon Musk)創辦及領軍的AI新創xAI周四(7/10)發表新一代AI模型Grok 4,第三方AI基準測試業者Artificial Analysis指出,Grok 4是xAI首款於基準測試中勝出的模型,凌駕OpenAI、Google、Anthropic Claude與DeepSeek的高階模型。
Grok 4是個懂得思考的推理模型,支援25.6萬個Token的脈絡長度,可輸入文字或圖像,並生成文字。
在Artificial Analysis的模型排行榜上,Grok 4的智慧指數(Intelligence Index)為73,勝過OpenAI o3-pro的71,或是並列70的Google Gemini 2.5 Pro、o3、o4-mini,也超越DeepSeek R1 0528的68。
除了整體成績之外,Artificial Analysis發現Grok 4不管是在跟程式有關的LiveCodeBench及SciCode,或是跟數學有關的AIME24與MATH-500等測試,也都處於領先地位。並在測試高階科學知識的GPQA Diamond基準測試中創下88%的新紀錄。
不只是Artificial Analysis,ARC Prize的模型排行榜顯示Grok 4處於明顯的領先地位。
不過,相較於採用各種基準測試,英國開源工程師Simon Willison有自己的測試方式,他先要求Grok 4產生一張鵜鶘騎腳踏車的SVG圖檔,再請Grok描述該圖檔,結果Grok便說這是隻類似鳥類的可愛生物在騎腳踏車。
Willison亦批評Grok 4甚至沒有提供用來記錄開發者、版本、日期、技術與架構等技術細節,或是模型用途,效能指標,訓練資料或是偏誤與限制的模型卡。還說在Grok 3本周才登上新聞版面後,xAI應該要更努力來贏得開發者的信任。
此外,Grok 3才因歧視猶太人引起爭議,最新的Grok 4也聲稱以色列是美國的寄生蟲,試圖控制與扼殺美國。惟目前並不確定該回答是否由某些刻意及有心的提示所生成。
Grok 4每100萬個Token輸入價格為3美元,輸出為15美元,與Claude 4 Sonnet相當,但高於Gemini 2.5 Pro及o3。其訂閱方案除了既有的、每月30美元的SuperGrok之外,本周新增了SuperGrok Heavy,可搶先體驗新功能,但每月費用高達300美元。
AI開發者也可透過由Willison建置與負責維護的大型語言模型比價及計價網站來試算模型費用。
熱門新聞
2025-12-02
2025-12-01
2025-11-30
2025-12-01
2025-12-01