Grok 4.1 评测详情

Grok 4.1 当前已收录的代表性评测结果包括 SWE-bench Verified（85 / 109，得分 54.60）。本页还提供与 3 个前代或同系列模型的迭代对比。并附有 1 个数据来源链接供参考。

评测结果

Grok 4.1

共 1 项评测

评测名称 / 模式

得分

排名/总数

常规模式

54.60

85 / 109

Grok 4.1 系列各版本的评测成绩纵向对比

评测类别:

柱状图按当前筛选范围内每个模型在各评测中的最高分展示；百分制评测使用原始高度，超出 0-100 的评测按该评测内相对比例缩放，标签仍保留原始分数。

1 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。· 点击任意行可切换下方趋势图。

评测项	Grok 4.1当前	GPT-4o
SWE-bench Verified 编程与软件工程	54.60常规模式	31.00常规模式

当前查看：SWE-bench Verified · 编程与软件工程

选择评测

常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间，纵轴为分数；同一模式会用实线串起版本变化，同代不同模式继续用虚线辅助对齐。

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。

这些模型暂未提供可比较的标准文本价格。