模型评测对比
最新基准汇总
Grok 4 Heavy与OpenAI o3、Claude Opus 4、Gemini-2.5-Pro等模型对比
本页面提供Grok 4 Heavy,OpenAI o3,Claude Opus 4,Gemini-2.5-Pro,Grok 4模型的对比,包括参数、开源情况、API价格等。同时,页面也会展示Grok 4 Heavy,OpenAI o3,Claude Opus 4,Gemini-2.5-Pro,Grok 4模型在HLE,GPQA Diamond,AIME2025,ARC-AGI-2等评测基准中的详细对比数据,评测数据来自系统收录结果汇总。
📊 左右滑动可查看更多模型数据 →
Grok 4 Heavy
xAI 发布的聊天大模型模型。
核心信息
开发机构
xAI
发布时间
2025-07-10
模型类型
聊天大模型
MoE 架构
性能与规格
总参数量
未公开
激活参数量
未公开
模型大小
推理能力
推理速度
思考模式
深度思考
最大上下文
128K
最大输出
8192
支持模态
Input
Output
API 价格 (每百万Tokens)
输入价格
输出价格
开源与许可
代码开源
--
权重开源
--
商业用途
不开源
相关资源
论文/报告
模型详细介绍
--
相关链接
OpenAI o3
OpenAI 发布的推理大模型模型。
Claude Opus 4
Anthropic 发布的推理大模型模型。
Gemini-2.5-Pro
Google Deep Mind 发布的推理大模型模型。
核心信息
开发机构
Google Deep Mind

发布时间
2025-06-05
模型类型
推理大模型
MoE 架构
性能与规格
总参数量
未公开
激活参数量
未公开
模型大小
推理能力
推理速度
思考模式
深度思考
最大上下文
1000K
最大输出
65536
支持模态
Input
Output
API 价格 (每百万Tokens)
输入价格
1.25 美元/100 万tokens
输出价格
10 美元/100 万tokens
开源与许可
代码开源
--
权重开源
--
商业用途
不开源
相关资源
论文/报告
查看
模型详细介绍
阅读
相关链接
评测对比模式筛选
当前大多数模型的评测都有不同的模式,包括是否使用推理过程,是否使用工具等,建议选择特定模式对比。
点击下方任一按钮,将 过滤模型的模式的对比表格,并同步更新
汇总图 与 各基准小图。
Grok 4 Heavy与OpenAI o3、Claude Opus 4、Gemini-2.5-Pro等模型各评测基准得分对比表
评测基准 | Grok 4 Heavy normal | OpenAI o3 thinking | Claude Opus 4 normal | Gemini-2.5-Pro thinking | Grok 4 thinking + 使用工具+联网 | Grok 4 thinking |
---|---|---|---|---|---|---|
HLE
知识问答
|
44.4 | 20.32 | 10.7 | 21.6 | 38.6 | 25.4 |
GPQA Diamond
常识推理
|
88.9 | 83.3 | 79.6 | 86.4 | 0 | 87 |
AIME2025
数学推理
|
100 | 88.9 | 75.5 | 88 | 0 | 91.7 |
ARC-AGI-2
综合评估
|
0 | 6.5 | 8.6 | 4.9 | 0 | 15.9 |