DataLearner logoDataLearnerAI
Latest AI Insights
Model Evaluations
Model Directory
Model Comparison
Resource Center
Tools

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

Products

  • Leaderboards
  • Model comparison
  • Datasets

Resources

  • Tutorials
  • Editorial
  • Tool directory

Company

  • About
  • Privacy policy
  • Data methodology
  • Contact

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

Privacy policyTerms of service
  1. Back to benchmark list
  2. /
  3. Pinch Bench

Pinch Bench 评测基准详情

PinchBench 是 Kilo Code 团队开发的开源基准测试系统,用于评估大型语言模型作为 OpenClaw 编码代理核心的表现。该系统运行一组固定真实世界任务,计算代理的任务完成成功率,同时记录执行速度和成本。所有结果通过公开排行榜 https://pinchbench.com 显示,目前包含 50 个模型的 403 次运行记录,最新更新时间为 2026 年 3 月 18 日。基准测试的代码和任务定义全部开源在 GitHub(pinchbench/skill 仓库),任何开发者均可本地复现或添加

更新2026-03-22
Views101
问题数量
23
发布机构
Kilo Code
评测类别
Agent能力评测
评测指标
Accuracy
支持语言
英文
难度等级
中等难度

简介

一个用于评估大模型作为OpenClaw控制中心的测试基准

相关资源

查看原始论文
阅读学术论文原文
获取数据集
下载评测数据集
访问官网
浏览项目官方网站
DataLearner 介绍
中文详细解读

Pinch Bench Model Score Leaderboard

Source: DataLearnerAI

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

模式说明:
normal
thinking
low
medium
high
deeper thinking
parallel_thinking
图表加载中...

详细评测数据

No parallel thinking results available

Pinch Bench详细排名数据表格

排名模型
1
Claude Sonnet 4.6扩展(工具)
86.92026-02-17未知
2
GPT-5.4思考模式 High(工具)
86.42026-03-05未知
3
Claude Opus 4.6扩展(工具)
86.32026-02-05未知
4
Claude Opus 4.5扩展(工具)
85.42025-11-25未知
5
GLM-5思考模式(工具)
85.32026-02-117440