圖片來源: 

Hugging Face

微軟本周公布新版桌機模型Phi-4-reasoning-vision-15B,兼具輕巧、多模態及推理能力,可執行視覺辨識及文字理解、或是數學及科學推理等多種任務。現在已於GitHub及Hugging Face平臺公開權重等資源。

Phi-4-reasoning-vision-15B是以Phi-4及Phi-4-Reasoning語言模型為基礎,加入多模態訓練而成。微軟在設計模型時,刻意避免過度依賴龐大資料集、複雜架構,或在推論階段(inference-time)產生過多token,以降低視覺語言模型(VLM)常見的高延遲、部署困難與資源消耗問題。

微軟指出,相較於Qwen 2.5 VL、Kimi-VL與Gemma3等模型動輒使用上兆token進行訓練,Phi-4-reasoning-vision-15B僅使用約2000億token的多模態資料,並以SigLIP-2視覺編碼器與Phi-4-Reasoning為核心架構完成訓練。

在僅150億參數的規模下,該模型仍可在一般硬體上執行,同時具備結構化推理能力,能支援多種任務,包括影像註解與字幕生成、圖片問答、文件閱讀與食譜解析等。此外,模型也具備數學與科學推理能力,並可理解電腦與手機螢幕上的內容,可用上面的資料來查證。

圖片來源/微軟

微軟並提供診斷準確性評估Eureka ML Insights及多模態準確性VLMEvalKit評估結果,顯示和常用的開放權重思維模型如Qwen 2.5 VL、Kimi-VL與Gemma3相比,Phi-4-reasoning-vision-15B在混合推理行為上跑分更高,意謂著更能平衡思維和非思維行為,進一步確保準確性及運算成本。

現在Phi-4-reasoning-vision-15B已可在Microsoft FoundryHugging FaceGitHub公開。

熱門新聞

Advertisement