Google DeepMind公布新一代遊戲人工智慧代理SIMA 2,延續先前SIMA計畫看著螢幕、操作虛擬鍵盤與滑鼠來學習遊戲的方式,這次Google把Gemini模型嵌入代理核心,讓人工智慧不只是聽指令,還能在3D遊戲世界裡推理目標、解釋自己的行動,並透過自我練習持續變強。

SIMA專案最初目標是打造能在多款3D虛擬世界通用的代理,第一代SIMA已能在多款商業遊戲中學會超過600種語言操作技能,例如轉向、爬梯子、開地圖,完全不讀遊戲內部API,只依賴畫面與虛擬鍵盤滑鼠輸入行動。

SIMA 2在這個基礎上換上Gemini作為推理引擎,代理不僅接受導航至特定位置這類指令,還會先解析使用者高階目標,再自行拆成子步驟,邊行動邊用自然語言向玩家說明接下來的行動與原因。研究團隊結合附有語言標註的人類示範影片,以及Gemini生成的標註資料進行訓練,讓代理從人類與模型兩種來源學會在遊戲中行動與解說。

Gemini的導入也明顯拉高了SIMA 2在陌生遊戲中的泛化能力,DeepMind表示,新版代理更能理解長且複雜、語氣較模糊的指令。同時DeepMind強調,代理會把在某款遊戲中學到的概念轉化應用到另一款遊戲,例如把挖礦的概念對應到另一款遊戲中的採集,在廣泛任務上的表現更接近人類玩家。

研究團隊將SIMA 2與自家世界模型Genie 3結合。Genie 3可以從一張圖片或一段文字即時生成新的3D互動世界,場景、物件與規則與現有遊戲完全不同。在這些先前從未出現過的世界裡,SIMA 2仍能快速辨識自己所在的位置與可互動的物件,理解使用者給出的目標,並採取朝目標前進的合理行動。研究團隊認為,這顯示代理不再只是在固定關卡裡背題,而是開始具備在全新環境裡適應與規劃的能力。

SIMA 2的一大亮點是自我最佳化能力,DeepMind描述,在起始階段代理仍然依靠人類示範學習,但之後可以切換到完全由自己玩遊戲的階段,透過嘗試錯誤累積經驗。Gemini在這裡扮演教練角色,負責提出任務,替代理的行為估算獎勵分數,而這些任務與回饋會被存入經驗資料庫,作為下一輪訓練更強版本代理的素材。實驗顯示,在ASKA與Genie 3生成世界中,初版SIMA 2原本完成不了的任務,經過幾代自我練功之後,代理可以在沒有新增人類遊玩資料的情況下完成原先失敗的挑戰。

官方把這個研究視為朝向通用人工智慧與未來具身人工智慧機器人的重要一步。 SIMA 2目前以限量研究預覽方式,優先開放給少數學界與遊戲開發者試用,希望先累積更多回饋與風險評估,再決定後續更大規模應用的方向。

熱門新聞

Advertisement