| Terminal-Bench | Harbor框架 | 基準測試 | Stanford | Laude Institute

AI基準測試Terminal-Bench升級2.0,強化任務驗證提升代理評測可靠性

Stanford與Laude Institute發布Terminal-Bench 2.0基準測試與Harbor框架,提升代理任務驗證品質與可重現性,並引入雲端容器化環境支援強化學習與指令微調

2025-11-12