圖片來源: 

XAI

馬斯克(Elon Musk)的xAI公司本周發布多模語言模型Grok-1.5 Vision,並預告很快將提供預覽版供研究及開發人員測試。

這是繼3月間開源Grok的基礎LLM Grok-1、4月初的Grok-1.5後,xAI公司最新AI研發成果發表。Grok-1.5 Vison(或稱Grok-1.5V)是xAI第一代多模語言模型,除了具有文字理解能力,Grok聊天機器人現在也能處理多種視覺資訊,包括文件、圖表、示意圖、螢幕擷圖、相片等。按照之前的紀錄,Grok-1.5V可能幾周之內就會開放早期測試人員或現有Grok用戶使用。

圖片來源/xAI

xAI表示,Grok-1.5V從跨學科推論到理解文件、科學示意圖、圖表、擷圖和相片等多方面都不輸現有多模語言模型。該公司也列出標竿測試數據,顯示在數學、文字理解、真實世界圖片理解能力上,超越OpenAI GPT-4、Google Gemini Pro 1.5、或Anthropic的Claude 3系列。示意圖理解能力則僅僅落後Claude 3 Sonnet模型。

xAI正持續提升Grok-1.5V的多模理解及生成能力,預計未來幾個月內其圖片、影片和聲音等模態資訊的理解及生成能力,都會再進一步精進。xAI也公告舊金山辦公室擴編徵人消息。

熱門新聞

Advertisement