| google | 多模態模型 | 資訊圖表

Google發表當前最佳UI與資訊圖表理解模型ScreenAI

Google ScreenAI模型結合視覺和語言處理能力,採用彈性區塊處理策略(Flexible Patching Strategy)強化,並且經特製資料集訓練,成為目前圖表理解能力最佳的模型

2024-03-22

| Gemini 1.5 | 多模態模型 | Gemini 1.5 Pro | google

Google發表Gemini 1.5,可支援長達100萬個Token的脈絡

最先採用Gemini 1.5模型的產品為Gemini 1.5 Pro,其標準脈絡長度為12.8萬個Token,Google計畫隨著模型的改善擴大到100萬個Token,將可一次處理1小時的影片、11小時的音訊或超過3萬行的程式碼

2024-02-16

| CM3Leon | Meta | 多模態模型 | 通用模型 | AI

Meta發表也能產生圖說的圖像生成模型CM3Leon

Meta強調只用30億Token文字資料訓練的CM3Leon,在生成圖像說明、回答圖像問題任務表現上,與具備400億Token的OpenFlamingo相當

2023-07-17