DataLearner logoDataLearnerAI
Latest AI Insights
Model Evaluations
Model Directory
Model Comparison
Resource Center
Tools

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
Contents
Contents
  1. Home/
  2. Blog List/
  3. Blog Detail

PinchBench:OpenClaw AI 代理真实任务基准测试介绍

2026/03/18 17:00:13
29 views
ClawBenchPinchBench大模型Agent能力评测大模型评测

PinchBench 是 Kilo Code 团队开发的开源基准测试系统,用于评估大型语言模型作为 OpenClaw 编码代理核心的表现。该系统运行一组固定真实世界任务,计算代理的任务完成成功率,同时记录执行速度和成本。所有结果通过公开排行榜 https://pinchbench.com 显示,目前包含 50 个模型的 403 次运行记录,最新更新时间为 2026 年 3 月 18 日。基准测试的代码和任务定义全部开源在 GitHub(pinchbench/skill 仓库),任何开发者均可本地复现或添加新任务。

OpenClaw 框架简介

OpenClaw 是开源个人 AI 助手框架,仓库地址为 https://github.com/openclaw/openclaw。仓库描述为“Your own personal AI assistant. Any OS. Any Platform. The lobster way. 🦞”。该框架允许用户在本地设备运行 AI 代理,支持连接超过 50 个消息平台,包括 WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage 等。核心能力包括浏览器控制、文件管理、计划任务执行、持久化记忆、多代理路由以及实时画布交互。项目由 Peter Steinberger 发起并由社区维护,目前 GitHub 星标数超过 32 万,采用 MIT 许可。Kilo Code 团队基于此框架开发了托管版本 KiloClaw,提供一键部署、500 多个模型接入以及生产级监控支持。PinchBench 正是针对 OpenClaw 代理架构设计的基准测试,所有任务均在该框架的实际运行环境中执行。

大模型代理评测的现有局限

现有大模型评测主要依赖知识问答或单一代码生成基准,例如 MMLU 或 HumanEval。这些基准聚焦模型的孤立能力,无法覆盖代理在实际场景中的多步工具调用、计划执行、错误恢复以及对模糊指令的处理。部分代理专用基准采用合成环境,导致评估结果与生产级工作流脱节,无法直接指导模型在真实部署中的选择。PinchBench 针对这些局限,采用 OpenClaw 实际运行环境和用户级任务进行测试。

PinchBench 的发布背景与设计目标

PinchBench 由 Kilo Code(kilo.ai)于 2026 年 2 月 24 日随 KiloClaw 正式发布一同推出。该团队同时开发了 OpenClaw 的托管版本 KiloClaw,推出此基准的直接目的是帮助用户从 500 多个可用模型中选择适合代理的 LLM。设计目标是提供可复现、可比较的代理性能数据,重点验证模型在工具使用、多步推理和实际结果生成方面的能力。所有任务定义、评分标准和运行脚本均开源,排行榜支持社区提交结果并按基准版本(Git commit hash)分组,确保不同运行之间的可比性。

评测设计与执行流程

基准包含 exactly 23 个任务,分为 8 个类别:

  • 生产力类(日程创建、每日总结)
  • 研究类(股票价格查询、科技会议收集、市场分析)
  • 写作类(博客撰写、邮件起草、内容人性化)
  • 编码类(天气脚本生成、项目文件结构创建)
  • 分析类(文档/CSV/Excel/PDF 总结)
  • 邮件类(收件箱分类、搜索与摘要)
  • 记忆类(上下文事实提取、知识持久化)
  • 技能类(OpenClaw 技能搜索与安装)

每个任务以 Markdown 文件定义,包含:

  • 精确的用户提示(prompt)
  • 预期行为描述
  • 评分清单(grading criteria)

执行流程如下:

  1. 在本地或 KiloClaw 环境中启动 OpenClaw 实例。
  2. 通过 ./scripts/run.sh --model <provider/model-id> 命令运行测试(支持 OpenRouter 等提供商,默认多次运行取平均)。
  3. 代理完成任务后,系统收集工作区文件和执行记录。
  4. 评分分为三类:
    • 自动化检查:Python 函数验证文件存在、内容格式、API 调用结果等客观指标。
    • LLM Judge:默认使用 Claude Opus 4.5 根据详细 rubric 对定性部分(如内容结构、语气适当性)打分。
    • 混合模式:同时使用上述两种方法。
  5. 生成结果 JSON,可直接上传至排行榜。

基准版本由 pinchbench/skill 仓库的 Git commit 锁定,修改任务定义或评分逻辑时会生成新版本,确保历史结果可追溯。

主流模型在 PinchBench 上的表现

截至 2026 年 3 月 18 日排行榜,成功率(任务完成百分比)前 10 名模型如下(部分数据):

排名模型 ID成功率
1anthropic/claude-sonnet-4.686.9%
2openai/gpt-5.486.4%
3anthropic/claude-opus-4.686.3%
4nvidia/nemotron-3-super-120b-a12b85.6%
5healer-alpha (openrouter)85.6%
6anthropic/claude-opus-4.585.4%
7z-ai/glm-585.3%
8moonshotai/kimi-k2.584.8%
9qwen/qwen3.5-122b-a10b84.5%
10qwen/qwen3.5-plus-02-1584.1%

排行榜还支持按预算过滤和查看速度/成本指标。数据表明 Claude 系列在当前版本中占据前列,部分开源模型如 NVIDIA Nemotron 3 Super 也进入前五。早期运行记录中部分模型曾报告更高数值(如 Gemini 3 Flash 相关版本接近 95%),但随着任务定义和基准版本迭代,当前稳定在 85%-87% 区间。观察结果显示,代理能力与模型参数规模或传统基准得分不完全对应;精确的工具调用和指令遵循在多步工作流中起关键作用。

总结

PinchBench 通过开放任务定义、混合评分机制和实时排行榜,提供了一套针对 OpenClaw 代理的标准化评估方案。其数据可直接用于模型选型和成本优化,同时支持社区扩展新任务。该基准的持续更新反映了 AI 代理评测从静态测试向真实工作流验证的转变,为开发者在实际部署中提供了可操作的参考依据。感兴趣的用户可访问 https://pinchbench.com 查看最新排行榜,或克隆 GitHub 仓库自行运行测试。

DataLearner WeChat

Follow DataLearner WeChat for the latest AI updates

DataLearner 官方微信二维码
Back to Blog List

Related Blogs

  • Terminal-Bench 评测全解析:一个用于评测大模型在终端环境使用工具能力的评测基准以及Terminal 1.0与 2.0 的完整对比
  • 如何评估大模型的Agent能力?τ²-Bench:评估双控对话智能体的新标准
  • AIME 2026:基于2026年美国数学邀请赛的大模型数学能力评估基准
  • AA-LCR:大模型长上下文推理能力的权威评测基准(Artificial Analysis Long Context Reasoning)是什么?包含哪些任务?如何测试大模型超长上下文能力?
  • MMEB:多模态嵌入基准评测,用于测试多模态向量检索和排序准确性的基准
  • Context Arena:长上下文大模型评测基准介绍
  • Tool Decathlon:大模型工具使用能力基准测试
  • IMO-Bench:谷歌发布的用于大模型数学推理的鲁棒评估基准

Hot Blogs

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署