xAI釋出Grok 4，首度於基準測試中稱冠

圖片來源:

Artificial Analysis

由馬斯克（Elon Musk）創辦及領軍的AI新創xAI周四（7/10）發表新一代AI模型Grok 4，第三方AI基準測試業者Artificial Analysis指出，Grok 4是xAI首款於基準測試中勝出的模型，凌駕OpenAI、Google、Anthropic Claude與DeepSeek的高階模型。

Grok 4是個懂得思考的推理模型，支援25.6萬個Token的脈絡長度，可輸入文字或圖像，並生成文字。

在Artificial Analysis的模型排行榜上，Grok 4的智慧指數（Intelligence Index）為73，勝過OpenAI o3-pro的71，或是並列70的Google Gemini 2.5 Pro、o3、o4-mini，也超越DeepSeek R1 0528的68。

除了整體成績之外，Artificial Analysis發現Grok 4不管是在跟程式有關的LiveCodeBench及SciCode，或是跟數學有關的AIME24與MATH-500等測試，也都處於領先地位。並在測試高階科學知識的GPQA Diamond基準測試中創下88%的新紀錄。

不只是Artificial Analysis，ARC Prize的模型排行榜顯示Grok 4處於明顯的領先地位。

不過，相較於採用各種基準測試，英國開源工程師Simon Willison有自己的測試方式，他先要求Grok 4產生一張鵜鶘騎腳踏車的SVG圖檔，再請Grok描述該圖檔，結果Grok便說這是隻類似鳥類的可愛生物在騎腳踏車。

Willison亦批評Grok 4甚至沒有提供用來記錄開發者、版本、日期、技術與架構等技術細節，或是模型用途，效能指標，訓練資料或是偏誤與限制的模型卡。還說在Grok 3本周才登上新聞版面後，xAI應該要更努力來贏得開發者的信任。

此外，Grok 3才因歧視猶太人引起爭議，最新的Grok 4也聲稱以色列是美國的寄生蟲，試圖控制與扼殺美國。惟目前並不確定該回答是否由某些刻意及有心的提示所生成。

Grok 4每100萬個Token輸入價格為3美元，輸出為15美元，與Claude 4 Sonnet相當，但高於Gemini 2.5 Pro及o3。其訂閱方案除了既有的、每月30美元的SuperGrok之外，本周新增了SuperGrok Heavy，可搶先體驗新功能，但每月費用高達300美元。

AI開發者也可透過由Willison建置與負責維護的大型語言模型比價及計價網站來試算模型費用。

熱門新聞