由Stanford大學與Laude Institute合作開發的終端人工智慧代理基準測試Terminal-Bench,正式推出2.0版本。新版重點在於提升任務驗證品質,確保測試結果更可靠且能被重現,並同步推出名為Harbor的雲端容器化執行框架,讓代理評測更貼近實際運作環境。

Terminal-Bench自問世以來,迅速成為人工智慧代理開發者的重要評測工具。早期版本雖廣受使用,但部分任務因外部相依或環境變動而難以重現,例如涉及YouTube下載的題目,可能因平臺防機器人機制更新而導致評測失準。官方因此全面檢視任務資料集,2.0版本引入大量人工與語言模型輔助的驗證機制,使每一項任務都能在一致條件下重複執行,並得到相同結果。

2.0改版的目標不只是提高難度,更是讓評測真正反映代理的穩定性與持續可行性,官方表示,代理的真實能力不僅在於能否解題,更在於能否在相同條件下穩定完成任務,而新版的驗證流程就是要確保評測能反映這種可靠度。

與Terminal-Bench 2.0同時發布的Harbor框架,是這次更新的另一個重點。Harbor將原本在本機環境執行的測試,搬上可平行擴展的雲端容器,支援上千實例同時評測,並可整合強化學習與指令微調(SFT)流程。開發者可以在標準化環境中重複進行代理訓練與評測,減少外部變因對成績造成的影響,也讓測試本身成為持續改進代理能力的手段。

Terminal-Bench獲主要人工智慧研究機構與產業實驗室採用,官方排行榜上出現OpenAI、Anthropic、Google、xAI、阿里巴巴與Stanford等團隊提交的測試結果。Terminal-Bench的開發機構Laude Institute成立於2025年,由Databricks與Perplexity共同創辦人Andy Konwinski以個人資金創立,目標是資助長期具影響力的計算研究。

熱門新聞

Advertisement