「TerminalBench2.1」标签相关文章

Terminal-Bench 2.1：终端环境下的AI代理评测基准

Terminal-Bench是一个针对AI代理在真实终端环境中的能力评测基准，由Stanford University与Laude Institute合作开发。Terminal-Bench 2.1是2.0的改进版本，基于Z.ai的Terminal-Bench 2.0 Verified进行优化，目前处于活跃状态，但任务尚未完全上传。

2026/05/20 09:58:0611

#TerminalBench #TerminalBench2.1

「TerminalBench2.1」相关文章

Terminal-Bench 2.1：终端环境下的AI代理评测基准

最热博客

今日推荐