
微軟發表開放權重模型Fara-7B,這是一款電腦使用(Computer Use)代理模型,主打以約70億參數規模就能在個人裝置上自動操作真實網頁。官方表示,此Fara-7B模型為研究性質,建議在沙箱環境中實驗,避免涉及高度敏感資料或高風險網域。
Fara-7B被設計成電腦使用代理,會直接讀取瀏覽器視窗截圖,推論下一步應該把滑鼠移到哪裡點擊、何時捲動頁面、在哪個欄位輸入文字,其不依賴無障礙樹(Accessibility Tree)等額外結構化資訊,而是盡量模擬一般使用者的實際操作方式。微軟預期,開發者可用Fara-7B協助填寫線上表單、搜尋與整理資訊、比價購物、訂票或管理雲端服務帳號,但前提是有人類監看與覆核,不是完全放手交給代理。
在模型設計上,Fara-7B以多模態基礎模型Qwen2.5-VL-7B為底,支援長內容輸入,再透過監督式微調,讓模型學會在觀察畫面、思考下一步與下達行動的流程中完成任務。每一步推理時,Fara-7B會綜合使用者指令、過去行動歷史與最近三張瀏覽器截圖,先產生內部思考,再輸出一次工具呼叫,對應瀏覽器自動化框架Playwright的滑鼠與鍵盤動作,或web_search、visit_url等瀏覽巨集。
微軟以WebVoyager、Online-Mind2Web、DeepShop以及新提出的WebTailBench等基準,與其他電腦使用代理與大型模型代理比較。官方資料顯示,在WebVoyager與WebTailBench上,Fara-7B的任務成功率不僅優於同樣基於Qwen2.5-VL-7B的UI-TARS-1.5-7B,也具備與OpenAI電腦使用預覽版等系統競爭的水準。由於Fara-7B平均完成任務所需步數較少,也就代表較少的運算,在成本更能取得優勢。
Fara-7B在執行任務時,只處理瀏覽器截圖、使用者任務指示與代理自身的動作歷史,不額外存取網站內部結構資料,強調只收集完成任務所需的最小資訊,而所有代理行為會完整記錄,方便事後稽核與回溯。
訓練資料也加入安全相關案例與應該拒絕的任務,並以WebTailBench-Refusals測試顯示模型對紅隊情境具有明顯拒絕能力。微軟同時在訓練過程中強調關鍵情境,例如輸入個資或進行付款等不可逆操作時,代理必須停下來向使用者確認,將最終決定權留給人類。
目前Fara-7B已整合進Magentic-UI研究原型,開發者可在受控介面中觀察代理如何一步步操作網頁,也能透過Microsoft Foundry、Hugging Face或VS Code的AI Toolkit下載模型,實際測試本機電腦使用代理。
熱門新聞
2025-12-31
2025-12-31
2025-12-31
2025-12-31
2025-12-31
2025-12-31