多模態模型

AWS在Bedrock上線Nova Premier基礎模型，支援多模態輸入與高複雜度任務，並能作為教師模型蒸餾出輕量版本，提升部署彈性與效率

2025-05-07

Hugging Face公布多模態模型家族SmolVLM新成員，其中規模最小的SmolVLM-256M，強調以不到1GB的GPU RAM就能在單一圖片上執行推論

2025-01-26

AWS發表該公司首款多模態模型Amazon Nova系列，於Amazon Bedrock平臺上提供給企業用戶

2024-12-04

蘋果揭露多模態模型MM1.5系列成果，還能處理行動裝置螢幕理解任務；兩位機器學習先鋒獲得諾貝爾物理獎；Meta預告影片生成AI模型Movie Gen；蘋果新模型1秒內將2D圖片轉為3D；可大幅改進AI模型運算效能！PyTorch釋出torchao函式庫

2024-10-11

微軟釋出小語言模型Phi-3家族第一個多模態模型Phi-3-vision，同時具備文字以及圖片識別能力，能根據用戶要求產出洞見與回答問題

2024-05-22

OpenAI宣布新一代多模態AI模型GPT-4o，將逐步提供給所有ChatGPT服務用戶，強調GPT-4o對聲音輸入產生回應的速度與人類對話反應時間一樣快

2024-05-14

Google ScreenAI模型結合視覺和語言處理能力，採用彈性區塊處理策略（Flexible Patching Strategy）強化，並且經特製資料集訓練，成為目前圖表理解能力最佳的模型

2024-03-22

最先採用Gemini 1.5模型的產品為Gemini 1.5 Pro，其標準脈絡長度為12.8萬個Token，Google計畫隨著模型的改善擴大到100萬個Token，將可一次處理1小時的影片、11小時的音訊或超過3萬行的程式碼

2024-02-16

Meta強調只用30億Token文字資料訓練的CM3Leon，在生成圖像說明、回答圖像問題任務表現上，與具備400億Token的OpenFlamingo相當

2023-07-17