Google DeepMind更新Gemini Deep Research研究代理,並向開發者開放Interactions API,讓第三方應用可把長時間的資訊蒐集與彙整流程嵌入自家產品。官方也提到,該代理程式可在報告中提供引用來源,並支援結構化輸出,方便後續系統接手處理研究結果。同時,Google開源名為DeepSearchQA的新基準測試,用來衡量研究型代理在多步網際網路查詢任務上的完整度。

Gemini Deep Research針對長時間脈絡蒐集與彙整而設計的代理程式,模型採用Gemini 3 Pro,會反覆規畫研究步驟,包含提出查詢、閱讀結果、辨識資訊缺口,再進一步搜尋補齊缺口。本次釋出主打大幅強化網頁搜尋能力,強調能更深入網站內頁尋找特定資料。

Google用Humanity’s Last Exam、DeepSearchQA與BrowseComp評估Gemini Deep Research,並稱在HLE與DeepSearchQA達到最佳水準,同時在BrowseComp則是自家目前最佳表現。Humanity’s Last Exam屬於跨領域的高難度題庫,常被用來檢驗模型在綜合性理解與推理上的上限,而BrowseComp著重在網頁逐步查詢與驗證能力,反映代理在實際瀏覽情境中能否找到關鍵資料,DeepSearchQA則聚焦多步研究流程,強調查詢完整而不只是回答正確,更接近研究型代理面對真實問題時需要反覆查詢、補充資料與彙整的工作型態。

依官方公布資訊,Gemini Deep Research在HLE達46.4%,在DeepSearchQA達66.1%,在BrowseComp為59.2%。其中,DeepSearchQA由900道因果鏈任務構成,涵蓋17個領域,題目設計要求代理不只回答單一事實,而是產出更完整的答案集合,用來檢驗搜尋召回與研究完整性。Google指出,現有多數基準仍偏向單點問答,較難反映真實研究工作常見的多步推理與反覆查證,因此希望以DeepSearchQA補足評估面向,作為後續研究與產品改進的參考。

Google表示Gemini Deep Research將陸續導入Google Search、NotebookLM、Google Finance,並升級Gemini App。Interactions API則提供開發者在同一套API下,呼叫Gemini模型與內建代理的能力,目前以預覽形式在Google AI Studio提供。

熱門新聞

Advertisement