标签

「大模型Agent能力评测」相关文章

汇总「大模型Agent能力评测」相关的原创 AI 技术文章与大模型实践笔记，持续更新。

标签:#大模型Agent能力评测

PinchBench：OpenClaw AI 代理真实任务基准测试介绍

PinchBench 是 Kilo Code 团队开发的开源基准测试系统，用于评估大型语言模型作为 OpenClaw 编码代理核心的表现。该系统运行一组固定真实世界任务，计算代理的任务完成成功率，同时记录执行速度和成本。所有结果通过公开排行榜 https://pinchbench.com 显示，目前包含 50 个模型的 403 次运行记录，最新更新时间为 2026 年 3 月 18 日。基准测试的代码和任务定义全部开源在 GitHub（pinchbench/skill 仓库），任何开发者均可本地复现或添加

2026/03/18 17:00:131,609

#ClawBench #PinchBench

Terminal-Bench 评测全解析：一个用于评测大模型在终端环境使用工具能力的评测基准以及Terminal 1.0与 2.0 的完整对比

本文介绍 Terminal-Bench 的设计理念，深入讲解 core、Terminal-Bench Hard 与最新 Terminal-Bench 2.0 的区别，帮助开发者选择合适的 AI 终端评测基准。

2025/11/24 14:11:542,243

#大模型Agent能力评测 #大模型评测

如何评估大模型的Agent能力？τ²-Bench：评估双控对话智能体的新标准

为了解决大模型的Agent操作依赖交互和人工处理这个问题，普林斯顿大学与 Sierra Research 的研究团队在 2025 年 6 月提出了 τ²-Bench（Tau-Squared Benchmark），并发布了论文《τ²-Bench: Evaluating Conversational Agents in a Dual-Control Environment》。它是对早期 τ-Bench 的扩展版本，旨在建立一种标准化方法，评估智能体在与用户共同作用于环境时的表现。

2025/10/12 10:03:581,362

#大模型Agent能力评测 #大模型评测