圖片來源: 

Hugging Face

Hugging Face昨(6)日公布會使用工具的AI代理人Open Computer Agent,能幫用戶查詢Google Map、維基百科或生成圖片。

Open Computer Agent是結合函式庫smolagents、語言模型Qwen2-VL-72B及虛擬桌機E2B Desktop開發而成。Open Computer Agent類似OpenAI的Operator代理人,目前為一Web服務,允許用戶輸入自然語言文字提示,代用戶執行任務。例如利用Google Maps查詢某公司位置、從瑞士伯恩搭火車到巴塞爾所需時間,或是到Hugging Face Space尋找圖片生成模型Flux 1,再輸入提示讓它生成GPU圖片。

Hugging Face的代理人部門主管Aymeric Roucher說明,日愈強大的視覺模型可用於複雜的代理人工作流程,而且Qwen-VL支援內建grounding功能,可辨識出圖片中任一元素的位置(座標),進而做到點擊螢幕截圖中的任何項目,好比人用滑鼠點選畫面上的按鈕或圖示。這代表模型不只是「看得懂圖片內容」,還能對圖片進行互動,這也實現Open Computer Agent自動化代理人的能力。

Hugging Face提醒,Open Computer Agent會儲存用戶活動,若不想被紀錄,用戶可以在左邊欄的「store task and agent trace?」取消勾選。而且Open Computer Agent使用的VM會被前往的網頁偵測而以CAPTCHA阻擋,這時需要人力解決。此外,目前Open Computer Agent反應時間有點慢,可能要等上數秒,有時還會卡住不動,重刷網頁即可重新啟動。

其他主要AI公司也都推出能使用工具的代理人。OpenAI的Operator開放付費用戶使用,Google Gemini則有Project Astra,能在混合及多種語言環境下轉換語言,以多種語言解決複雜主題的問題、或使用Circle to Search翻譯菜單文字。

熱門新聞

Advertisement