Grok 4.1 评测详情
Grok 4.1 当前已收录的代表性评测结果包括 SWE-bench Verified(70 / 94,得分 54.60)。本页还提供与 3 个前代或同系列模型的迭代对比。并附有 1 个数据来源链接供参考。
评测结果
Grok 4.1
评测结果
历代版本对比
Grok 4.1 系列各版本的评测成绩纵向对比
评测类别:
Grok 4.1:
关闭
GPT-4o(2024-11-20):
常规模式
GPT-4o:
normal
评测得分对比
1 项可对比评测得分汇总
| 评测项 | Grok 4.1(本模型) | GPT-4o(2024-11-20) | GPT-4o |
|---|---|---|---|
SWE-bench Verified 编程与软件工程 | 54.60 常规模式(无工具) | 31.00 常规模式(无工具) | 31.00 normal |
Grok 4.1 所在系列的标准 API 价格对比
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。
这些模型的价格币种或计费单位不一致,暂不直接绘制统一柱状图,以下展示原始价格。
GPT-4o
标准输入: 2.5 美元/100万 tokens
标准输出: 10 美元/100万 tokens
| 模型 | 供应商 | 标准输入 | 标准输出 | 标准价适用于 |
|---|---|---|---|---|
GPT-4o | — | 2.5 美元/100万 tokens | 10 美元/100万 tokens | — |
系列版本评测总览
查看 Grok 4.1 系列各版本在主要评测上的整体得分,点击任意评测行可查看各推理模式的细分结果。
提示:点击任意分数单元格可切换下方关系图。
| 评测项 | GPT-4o2024/5/13 | GPT-4o(2024-11-20)2024/11/20 | Grok 4.12025/11/17 |
|---|---|---|---|
单评测模式关系图
当前查看:SWE-bench Verified · 编程与软件工程
选择评测