微軟公布150億參數Phi桌機版多模態模型

圖片來源:

Hugging Face

微軟本周公布新版桌機模型Phi-4-reasoning-vision-15B，兼具輕巧、多模態及推理能力，可執行視覺辨識及文字理解、或是數學及科學推理等多種任務。現在已於GitHub及Hugging Face平臺公開權重等資源。

Phi-4-reasoning-vision-15B是以Phi-4及Phi-4-Reasoning語言模型為基礎，加入多模態訓練而成。微軟在設計模型時，刻意避免過度依賴龐大資料集、複雜架構，或在推論階段（inference-time）產生過多token，以降低視覺語言模型（VLM）常見的高延遲、部署困難與資源消耗問題。

微軟指出，相較於Qwen 2.5 VL、Kimi-VL與Gemma3等模型動輒使用上兆token進行訓練，Phi-4-reasoning-vision-15B僅使用約2000億token的多模態資料，並以SigLIP-2視覺編碼器與Phi-4-Reasoning為核心架構完成訓練。

在僅150億參數的規模下，該模型仍可在一般硬體上執行，同時具備結構化推理能力，能支援多種任務，包括影像註解與字幕生成、圖片問答、文件閱讀與食譜解析等。此外，模型也具備數學與科學推理能力，並可理解電腦與手機螢幕上的內容，可用上面的資料來查證。

圖片來源／微軟

微軟並提供診斷準確性評估Eureka ML Insights及多模態準確性VLMEvalKit評估結果，顯示和常用的開放權重思維模型如Qwen 2.5 VL、Kimi-VL與Gemma3相比，Phi-4-reasoning-vision-15B在混合推理行為上跑分更高，意謂著更能平衡思維和非思維行為，進一步確保準確性及運算成本。

現在Phi-4-reasoning-vision-15B已可在Microsoft Foundry、Hugging Face及GitHub公開。

熱門新聞