模型评测对比 最新基准汇总

o3-pro与Grok 3、OpenAI o3、Claude Sonnet 4等模型对比

本页面提供o3-pro,Grok 3,OpenAI o3,Claude Sonnet 4,Claude Opus 4,DeepSeek-R1-0528,Gemini 2.5-Pro模型的对比,包括参数、开源情况、API价格等。同时,页面也会展示o3-pro,Grok 3,OpenAI o3,Claude Sonnet 4,Claude Opus 4,DeepSeek-R1-0528,Gemini 2.5-Pro模型在GPQA Diamond,AIME 2024等评测基准中的详细对比数据,评测数据来自系统收录结果汇总。
📊 左右滑动可查看更多模型数据 →
o3-pro
o3-pro

OpenAI 发布的推理大模型模型。

核心信息
开发机构 OpenAI OpenAI
发布时间 2025-06-10
模型类型 推理大模型
MoE 架构
性能与规格
总参数量 未公开
激活参数量 未公开
模型大小
推理能力
推理速度
思考模式
深度思考
最大上下文 200K
最大输出 100000
支持模态
T T
Input
Output
开源与许可
开源与许可
代码开源 --
权重开源 --
商业用途 不开源
相关资源
论文/报告 查看
模型详细介绍 --
相关链接
Grok 3
Grok 3

xAI 发布的聊天大模型模型。

核心信息
开发机构 xAI xAI
发布时间 2025-02-17
模型类型 聊天大模型
MoE 架构
性能与规格
总参数量 未公开
激活参数量 未公开
模型大小
推理能力 暂无数据
推理速度 暂无数据
思考模式
深度思考
最大上下文 128K
最大输出 0
支持模态
T T
Input
Output
开源与许可
开源与许可
代码开源 --
权重开源 --
商业用途 不开源
相关资源
论文/报告
模型详细介绍 阅读
相关链接
OpenAI o3
OpenAI o3

OpenAI 发布的推理大模型模型。

核心信息
开发机构 OpenAI OpenAI
发布时间 2025-04-16
模型类型 推理大模型
MoE 架构
性能与规格
总参数量 未公开
激活参数量 未公开
模型大小
推理能力
推理速度
思考模式
深度思考
最大上下文 200K
最大输出 100000
支持模态
T T
Input
Output
开源与许可
开源与许可
代码开源 --
权重开源 --
商业用途 不开源
相关资源
论文/报告 查看
模型详细介绍 --
相关链接
Claude Sonnet 4
Claude Sonnet 4

Anthropic 发布的推理大模型模型。

核心信息
开发机构 Anthropic Anthropic
发布时间 2025-05-23
模型类型 推理大模型
MoE 架构
性能与规格
总参数量 未公开
激活参数量 未公开
模型大小
推理能力
推理速度
思考模式
深度思考
最大上下文 200K
最大输出 64000
支持模态
T T
Input
Output
开源与许可
开源与许可
代码开源 --
权重开源 --
商业用途 不开源
相关资源
论文/报告 查看
模型详细介绍 阅读
相关链接
Claude Opus 4
Claude Opus 4

Anthropic 发布的推理大模型模型。

核心信息
开发机构 Anthropic Anthropic
发布时间 2025-05-23
模型类型 推理大模型
MoE 架构
性能与规格
总参数量 未公开
激活参数量 未公开
模型大小
推理能力
推理速度
思考模式
深度思考
最大上下文 200K
最大输出 32000
支持模态
T T
Input
Output
开源与许可
开源与许可
代码开源 --
权重开源 --
商业用途 不开源
相关资源
论文/报告 查看
模型详细介绍 阅读
相关链接
DeepSeek-R1-0528
DeepSeek-R1-0528

DeepSeek-AI 发布的推理大模型模型。

核心信息
开发机构 DeepSeek-AI DeepSeek-AI
发布时间 2025-05-28
模型类型 推理大模型
MoE 架构
性能与规格
总参数量 6,710 亿
激活参数量 370 亿
模型大小 685GB
推理能力
推理速度
思考模式
深度思考
最大上下文 64K
最大输出 64000
支持模态
T T
Input
Output
开源与许可
开源与许可
代码开源
权重开源
商业用途 免费商用授权
相关资源
论文/报告 查看
模型详细介绍 --
相关链接 🤗
Gemini 2.5-Pro
Gemini 2.5-Pro

Google Deep Mind 发布的推理大模型模型。

核心信息
开发机构 Google Deep Mind Google Deep Mind
发布时间 2025-06-05
模型类型 推理大模型
MoE 架构
性能与规格
总参数量 未公开
激活参数量 未公开
模型大小
推理能力
推理速度
思考模式
深度思考
最大上下文 1000K
最大输出 65536
支持模态
T T
Input
Output
开源与许可
开源与许可
代码开源 --
权重开源 --
商业用途 不开源
相关资源
论文/报告 查看
模型详细介绍 阅读
相关链接
评测对比模式筛选
当前大多数模型的评测都有不同的模式,包括是否使用推理过程,是否使用工具等,建议选择特定模式对比。 点击下方任一按钮,将 过滤模型的模式的对比表格,并同步更新 汇总图各基准小图
快捷组合
思考模式

说明:Thinking(默认)在检测到 low / medium / high 子模式时只保留 medium 版本,点击 Thinking(全部)可查看所有子模式。

工具使用

o3-pro与Grok 3、OpenAI o3、Claude Sonnet 4等模型各评测基准得分对比表

评测基准
o3-pro normal
Grok 3 normal
OpenAI o3 thinking
OpenAI o3 normal
Claude Sonnet 4 deeper_thinking + 使用工具
Claude Sonnet 4 thinking
Claude Sonnet 4 normal
Claude Opus 4 normal
DeepSeek-R1-0528 thinking
Gemini 2.5-Pro thinking
Gemini 2.5-Pro normal
GPQA Diamond
综合评估
84 80.4 83.3 -- 83.8 75.4 68 79.6 81 86.4 --
AIME 2024
数学推理
93 84.2 -- 91.6 -- -- 43.4 76 91.4 -- 92

o3-pro与Grok 3、OpenAI o3、Claude Sonnet 4等模型评测结果汇总对比图

蓝色柱状系列表示选定模型 o3-pro 在不同模式下的表现

o3-pro与Grok 3、OpenAI o3、Claude Sonnet 4等模型的API价格对比图 (文本输入/输出)

o3-pro与Grok 3、OpenAI o3、Claude Sonnet 4等模型在各评测基准详细对比