模型评测对比 最新基准汇总

Grok 4 Heavy与OpenAI o3、Claude Opus 4、Gemini-2.5-Pro等模型对比

本页面提供Grok 4 Heavy,OpenAI o3,Claude Opus 4,Gemini-2.5-Pro,Grok 4模型的对比,包括参数、开源情况、API价格等。同时,页面也会展示Grok 4 Heavy,OpenAI o3,Claude Opus 4,Gemini-2.5-Pro,Grok 4模型在HLE,GPQA Diamond,AIME2025,ARC-AGI-2等评测基准中的详细对比数据,评测数据来自系统收录结果汇总。
📊 左右滑动可查看更多模型数据 →
Grok 4 Heavy
Grok 4 Heavy

xAI 发布的聊天大模型模型。

核心信息
开发机构 xAI xAI
发布时间 2025-07-10
模型类型 聊天大模型
MoE 架构
性能与规格
总参数量 未公开
激活参数量 未公开
模型大小
推理能力
推理速度
思考模式
深度思考
最大上下文 128K
最大输出 8192
支持模态
T T
Input
Output
API 价格 (每百万Tokens)
输入价格
输出价格
开源与许可
代码开源 --
权重开源 --
商业用途 不开源
相关资源
论文/报告
模型详细介绍 --
相关链接
OpenAI o3
OpenAI o3

OpenAI 发布的推理大模型模型。

核心信息
开发机构 OpenAI OpenAI
发布时间 2025-04-16
模型类型 推理大模型
MoE 架构
性能与规格
总参数量 未公开
激活参数量 未公开
模型大小
推理能力
推理速度
思考模式
深度思考
最大上下文 200K
最大输出 100000
支持模态
T T
Input
Output
API 价格 (每百万Tokens)
输入价格 10 美元/100 万tokens
输出价格 40 美元/100 万tokens
开源与许可
代码开源 --
权重开源 --
商业用途 不开源
相关资源
论文/报告 查看
模型详细介绍 --
相关链接
Claude Opus 4
Claude Opus 4

Anthropic 发布的推理大模型模型。

核心信息
开发机构 Anthropic Anthropic
发布时间 2025-05-23
模型类型 推理大模型
MoE 架构
性能与规格
总参数量 未公开
激活参数量 未公开
模型大小
推理能力
推理速度
思考模式
深度思考
最大上下文 200K
最大输出 32000
支持模态
T T
Input
Output
API 价格 (每百万Tokens)
输入价格 15 美元/ 100万tokens
输出价格 75 美元/100万tokens
开源与许可
代码开源 --
权重开源 --
商业用途 不开源
相关资源
论文/报告 查看
模型详细介绍 阅读
相关链接
Gemini-2.5-Pro
Gemini-2.5-Pro

Google Deep Mind 发布的推理大模型模型。

核心信息
开发机构 Google Deep Mind Google Deep Mind
发布时间 2025-06-05
模型类型 推理大模型
MoE 架构
性能与规格
总参数量 未公开
激活参数量 未公开
模型大小
推理能力
推理速度
思考模式
深度思考
最大上下文 1000K
最大输出 65536
支持模态
T T
Input
Output
API 价格 (每百万Tokens)
输入价格 1.25 美元/100 万tokens
输出价格 10 美元/100 万tokens
开源与许可
代码开源 --
权重开源 --
商业用途 不开源
相关资源
论文/报告 查看
模型详细介绍 阅读
相关链接
Grok 4
Grok 4

xAI 发布的推理大模型模型。

核心信息
开发机构 xAI xAI
发布时间 2025-07-10
模型类型 推理大模型
MoE 架构
性能与规格
总参数量 未公开
激活参数量 未公开
模型大小
推理能力
推理速度
思考模式
深度思考
最大上下文 256K
最大输出 262144
支持模态
T T
Input
Output
API 价格 (每百万Tokens)
输入价格 3 美元/100 万tokens
输出价格 15 美元/100 万tokens
开源与许可
代码开源 --
权重开源 --
商业用途 不开源
相关资源
论文/报告 查看
模型详细介绍 阅读
相关链接
评测对比模式筛选
当前大多数模型的评测都有不同的模式,包括是否使用推理过程,是否使用工具等,建议选择特定模式对比。 点击下方任一按钮,将 过滤模型的模式的对比表格,并同步更新 汇总图各基准小图

Grok 4 Heavy与OpenAI o3、Claude Opus 4、Gemini-2.5-Pro等模型各评测基准得分对比表

评测基准 Grok 4 Heavy normal OpenAI o3 thinking Claude Opus 4 normal Gemini-2.5-Pro thinking Grok 4 thinking + 使用工具+联网 Grok 4 thinking
HLE
知识问答
44.4 20.32 10.7 21.6 38.6 25.4
GPQA Diamond
常识推理
88.9 83.3 79.6 86.4 0 87
AIME2025
数学推理
100 88.9 75.5 88 0 91.7
ARC-AGI-2
综合评估
0 6.5 8.6 4.9 0 15.9

Grok 4 Heavy与OpenAI o3、Claude Opus 4、Gemini-2.5-Pro等模型评测结果汇总对比图

Grok 4 Heavy与OpenAI o3、Claude Opus 4、Gemini-2.5-Pro等模型的API价格对比图 (文本输入/输出)

Grok 4 Heavy与OpenAI o3、Claude Opus 4、Gemini-2.5-Pro等模型在各评测基准详细对比