
微軟研究院開源名為Magentic Marketplace的模擬環境,讓研究人員能在可控的虛擬市場中觀察人工智慧代理的互動行為,並量化其對消費者福利、市場效率與抗操弄能力的影響。該開源計畫提供學界與產業一個安全沙箱,在真實市場出現問題之前,預先觀察代理帶來的潛在效應。
傳統人工智慧研究多半聚焦在單一代理完成任務的能力,或少數代理之間的簡易協商,但真實市場裡情境複雜得多。Magentic Marketplace讓上百個代理能同時進行搜尋、對話、談判與交易,模擬真實市場的多方互動。平臺以HTTP/REST為基礎,採客戶端與伺服器分離架構,僅提供3個端點,分別是註冊、協定探索與動作執行,支援不同代理的動態行為。
在模擬環境中,2類主要代理分別代表顧客與商家,雙方透過API交換資訊,完成從搜尋商品到付款的整個流程,系統中央的交易層負責維護一致性與紀錄。平臺也提供視覺化模組,讓研究人員能觀察市場動態與個別代理間的對話過程,進一步分析決策模式。
微軟團隊以合成資料建立測試情境,目前支援餐飲與家庭修繕與維護服務兩類服務市場。研究評估兩種市場規模,包含33位顧客與99家商家的小型設定,以及100位顧客與300家商家的中型設定,並測試多種專有與開源模型,包括GPT-5、GPT-4.1、Gemini-2.5-Flash與Qwen3系列。實驗以消費者福利(Consumer Welfare)作為主要衡量指標,定義為消費者效用減去實際支付金額,並與理論最佳值比較。
研究結果顯示,代理的資訊發現能力對市場表現影響最大。在理想搜尋條件下,GPT-5等模型能逼近最佳水準,但在模擬現實環境的詞彙搜尋條件中,代理需自行擬定查詢並篩選對象,表現差距立刻拉開,凸顯搜尋與比對演算法的關鍵性。
團隊觀察到明顯的選擇悖論現象(Paradox of Choice),當搜尋結果從3家擴大到100家時,多數模型並未更廣泛探索,反而更快接受看似合理的方案,導致平均消費者福利下降(下圖)。如此反映模型在長內容推理與比較策略上的不足,也提醒開發者在代理設計上需平衡探索與決策效率。

研究設計了6種操弄策略,包括權威訴求、從眾造假、損失厭惡訊息(Loss Aversion),以及不同強度的提示注入攻擊,在強提示注入攻擊下,部分模型會把款項誤付給惡意代理,暴露出自動化代理在開放市場中仍易受影響的問題。此外,所有模型都呈現明顯的提案偏誤,傾向接受第一個收到的商家報價,而非等待更佳選項,這類行為可能讓回覆速度勝過商品品質,造成市場不公平競爭。
Magentic Marketplace已在GitHub上以MIT授權釋出,包含原始碼、合成資料與實驗模板,並附有完整文件供研究者重現實驗或擴展新場景。微軟同時公開論文於arXiv,詳細說明架構與結果分析。
熱門新聞
2025-12-31
2025-12-31
2026-01-02
2025-12-31
2025-12-31
2025-12-31
2025-12-31