PinchBench：OpenClaw AI 代理真实任务基准测试介绍

PinchBench 是 Kilo Code 团队开发的开源基准测试系统，用于评估大型语言模型作为 OpenClaw 编码代理核心的表现。该系统运行一组固定真实世界任务，计算代理的任务完成成功率，同时记录执行速度和成本。所有结果通过公开排行榜 https://pinchbench.com 显示，目前包含 50 个模型的 403 次运行记录，最新更新时间为 2026 年 3 月 18 日。基准测试的代码和任务定义全部开源在 GitHub（pinchbench/skill 仓库），任何开发者均可本地复现或添加新任务。

OpenClaw 框架简介

OpenClaw 是开源个人 AI 助手框架，仓库地址为 https://github.com/openclaw/openclaw。仓库描述为“Your own personal AI assistant. Any OS. Any Platform. The lobster way. 🦞”。该框架允许用户在本地设备运行 AI 代理，支持连接超过 50 个消息平台，包括 WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage 等。核心能力包括浏览器控制、文件管理、计划任务执行、持久化记忆、多代理路由以及实时画布交互。项目由 Peter Steinberger 发起并由社区维护，目前 GitHub 星标数超过 32 万，采用 MIT 许可。Kilo Code 团队基于此框架开发了托管版本 KiloClaw，提供一键部署、500 多个模型接入以及生产级监控支持。PinchBench 正是针对 OpenClaw 代理架构设计的基准测试，所有任务均在该框架的实际运行环境中执行。

大模型代理评测的现有局限

现有大模型评测主要依赖知识问答或单一代码生成基准，例如 MMLU 或 HumanEval。这些基准聚焦模型的孤立能力，无法覆盖代理在实际场景中的多步工具调用、计划执行、错误恢复以及对模糊指令的处理。部分代理专用基准采用合成环境，导致评估结果与生产级工作流脱节，无法直接指导模型在真实部署中的选择。PinchBench 针对这些局限，采用 OpenClaw 实际运行环境和用户级任务进行测试。

PinchBench 的发布背景与设计目标

PinchBench 由 Kilo Code（kilo.ai）于 2026 年 2 月 24 日随 KiloClaw 正式发布一同推出。该团队同时开发了 OpenClaw 的托管版本 KiloClaw，推出此基准的直接目的是帮助用户从 500 多个可用模型中选择适合代理的 LLM。设计目标是提供可复现、可比较的代理性能数据，重点验证模型在工具使用、多步推理和实际结果生成方面的能力。所有任务定义、评分标准和运行脚本均开源，排行榜支持社区提交结果并按基准版本（Git commit hash）分组，确保不同运行之间的可比性。

评测设计与执行流程

基准包含 exactly 23 个任务，分为 8 个类别：

生产力类（日程创建、每日总结）
研究类（股票价格查询、科技会议收集、市场分析）
写作类（博客撰写、邮件起草、内容人性化）
编码类（天气脚本生成、项目文件结构创建）
分析类（文档/CSV/Excel/PDF 总结）
邮件类（收件箱分类、搜索与摘要）
记忆类（上下文事实提取、知识持久化）
技能类（OpenClaw 技能搜索与安装）

每个任务以 Markdown 文件定义，包含：

精确的用户提示（prompt）
预期行为描述
评分清单（grading criteria）

执行流程如下：

在本地或 KiloClaw 环境中启动 OpenClaw 实例。
通过 ./scripts/run.sh --model <provider/model-id> 命令运行测试（支持 OpenRouter 等提供商，默认多次运行取平均）。
代理完成任务后，系统收集工作区文件和执行记录。
评分分为三类：
- 自动化检查：Python 函数验证文件存在、内容格式、API 调用结果等客观指标。
- LLM Judge：默认使用 Claude Opus 4.5 根据详细 rubric 对定性部分（如内容结构、语气适当性）打分。
- 混合模式：同时使用上述两种方法。
生成结果 JSON，可直接上传至排行榜。

基准版本由 pinchbench/skill 仓库的 Git commit 锁定，修改任务定义或评分逻辑时会生成新版本，确保历史结果可追溯。

主流模型在 PinchBench 上的表现

截至 2026 年 3 月 18 日排行榜，成功率（任务完成百分比）前 10 名模型如下（部分数据）：

排名	模型 ID	成功率
1	anthropic/claude-sonnet-4.6	86.9%
2	openai/gpt-5.4	86.4%
3	anthropic/claude-opus-4.6	86.3%
4	nvidia/nemotron-3-super-120b-a12b	85.6%
5	healer-alpha (openrouter)	85.6%
6	anthropic/claude-opus-4.5	85.4%
7	z-ai/glm-5	85.3%
8	moonshotai/kimi-k2.5	84.8%
9	qwen/qwen3.5-122b-a10b	84.5%
10	qwen/qwen3.5-plus-02-15	84.1%

排行榜还支持按预算过滤和查看速度/成本指标。数据表明 Claude 系列在当前版本中占据前列，部分开源模型如 NVIDIA Nemotron 3 Super 也进入前五。早期运行记录中部分模型曾报告更高数值（如 Gemini 3 Flash 相关版本接近 95%），但随着任务定义和基准版本迭代，当前稳定在 85%-87% 区间。观察结果显示，代理能力与模型参数规模或传统基准得分不完全对应；精确的工具调用和指令遵循在多步工作流中起关键作用。

总结

PinchBench 通过开放任务定义、混合评分机制和实时排行榜，提供了一套针对 OpenClaw 代理的标准化评估方案。其数据可直接用于模型选型和成本优化，同时支持社区扩展新任务。该基准的持续更新反映了 AI 代理评测从静态测试向真实工作流验证的转变，为开发者在实际部署中提供了可操作的参考依据。感兴趣的用户可访问 https://pinchbench.com 查看最新排行榜，或克隆 GitHub 仓库自行运行测试。

OpenClaw 框架简介

大模型代理评测的现有局限

PinchBench 的发布背景与设计目标

评测设计与执行流程

主流模型在 PinchBench 上的表现

总结

DataLearner WeChat