模型评测对比
最新基准汇总
o3-pro与Grok 3、OpenAI o3、Claude Sonnet 4等模型对比
本页面提供o3-pro,Grok 3,OpenAI o3,Claude Sonnet 4,Claude Opus 4,DeepSeek-R1-0528,Gemini 2.5-Pro模型的对比,包括参数、开源情况、API价格等。同时,页面也会展示o3-pro,Grok 3,OpenAI o3,Claude Sonnet 4,Claude Opus 4,DeepSeek-R1-0528,Gemini 2.5-Pro模型在GPQA Diamond,AIME 2024等评测基准中的详细对比数据,评测数据来自系统收录结果汇总。
📊 左右滑动可查看更多模型数据 →
o3-pro
OpenAI 发布的推理大模型模型。
Grok 3
xAI 发布的聊天大模型模型。
OpenAI o3
OpenAI 发布的推理大模型模型。
Claude Sonnet 4
Anthropic 发布的推理大模型模型。
Claude Opus 4
Anthropic 发布的推理大模型模型。
DeepSeek-R1-0528
DeepSeek-AI 发布的推理大模型模型。
核心信息
开发机构
DeepSeek-AI
DeepSeek-AI
发布时间
2025-05-28
模型类型
推理大模型
MoE 架构
性能与规格
总参数量
6,710 亿
激活参数量
370 亿
模型大小
685GB
推理能力
推理速度
思考模式
深度思考
最大上下文
64K
最大输出
64000
支持模态
Input
Output
开源与许可
开源与许可
代码开源
否
权重开源
否
商业用途
免费商用授权
相关资源
论文/报告
查看
模型详细介绍
--
相关链接
Gemini 2.5-Pro
Google Deep Mind 发布的推理大模型模型。
核心信息
开发机构
Google Deep Mind
Google Deep Mind
发布时间
2025-06-05
模型类型
推理大模型
MoE 架构
性能与规格
总参数量
未公开
激活参数量
未公开
模型大小
推理能力
推理速度
思考模式
深度思考
最大上下文
1000K
最大输出
65536
支持模态
Input
Output
开源与许可
开源与许可
代码开源
--
权重开源
--
商业用途
不开源
相关资源
论文/报告
查看
模型详细介绍
阅读
相关链接
评测对比模式筛选
当前大多数模型的评测都有不同的模式,包括是否使用推理过程,是否使用工具等,建议选择特定模式对比。
点击下方任一按钮,将 过滤模型的模式的对比表格,并同步更新
汇总图 与 各基准小图。
快捷组合
思考模式
说明:Thinking(默认)在检测到 low / medium / high 子模式时只保留 medium 版本,点击 Thinking(全部)可查看所有子模式。
工具使用
o3-pro与Grok 3、OpenAI o3、Claude Sonnet 4等模型各评测基准得分对比表
| 评测基准 |
o3-pro
normal
|
Grok 3
normal
|
OpenAI o3
thinking
|
OpenAI o3
normal
|
Claude Sonnet 4
deeper_thinking + 使用工具
|
Claude Sonnet 4
thinking
|
Claude Sonnet 4
normal
|
Claude Opus 4
normal
|
DeepSeek-R1-0528
thinking
|
Gemini 2.5-Pro
thinking
|
Gemini 2.5-Pro
normal
|
|---|---|---|---|---|---|---|---|---|---|---|---|
|
GPQA Diamond
综合评估
|
84 | 80.4 | 83.3 | -- | 83.8 | 75.4 | 68 | 79.6 | 81 | 86.4 | -- |
|
AIME 2024
数学推理
|
93 | 84.2 | -- | 91.6 | -- | -- | 43.4 | 76 | 91.4 | -- | 92 |
OpenAI
Anthropic