模型评测对比最新基准汇总

o3-pro与Grok 3、OpenAI o3、Claude Sonnet 4等模型对比

本页面提供o3-pro,Grok 3,OpenAI o3,Claude Sonnet 4,Claude Opus 4,DeepSeek-R1-0528,Gemini 2.5-Pro模型的对比，包括参数、开源情况、API价格等。同时，页面也会展示o3-pro,Grok 3,OpenAI o3,Claude Sonnet 4,Claude Opus 4,DeepSeek-R1-0528,Gemini 2.5-Pro模型在GPQA Diamond,AIME 2024等评测基准中的详细对比数据，评测数据来自系统收录结果汇总。

📊 左右滑动可查看更多模型数据 →

o3-pro

OpenAI 发布的推理大模型模型。

了解更多在线体验

核心信息

开发机构

OpenAI

发布时间 2025-06-10

模型类型推理大模型

MoE 架构

性能与规格

总参数量未公开

激活参数量未公开

模型大小

推理能力

推理速度

思考模式

深度思考

最大上下文 200K

最大输出 100000

支持模态

Input

Output

开源与许可

代码开源 --

权重开源 --

商业用途不开源

相关资源

论文/报告查看

模型详细介绍 --

相关链接

Grok 3

xAI 发布的聊天大模型模型。

了解更多无体验地址

核心信息

开发机构

xAI

发布时间 2025-02-17

模型类型聊天大模型

MoE 架构

性能与规格

总参数量未公开

激活参数量未公开

模型大小

推理能力暂无数据

推理速度暂无数据

思考模式

深度思考

最大上下文 128K

最大输出 0

支持模态

Input

Output

开源与许可

代码开源 --

权重开源 --

商业用途不开源

相关资源

论文/报告

模型详细介绍阅读

相关链接

OpenAI o3

OpenAI 发布的推理大模型模型。

了解更多在线体验

核心信息

开发机构

OpenAI

发布时间 2025-04-16

模型类型推理大模型

MoE 架构

性能与规格

总参数量未公开

激活参数量未公开

模型大小

推理能力

推理速度

思考模式

深度思考

最大上下文 200K

最大输出 100000

支持模态

Input

Output

开源与许可

代码开源 --

权重开源 --

商业用途不开源

相关资源

论文/报告查看

模型详细介绍 --

相关链接

Claude Sonnet 4

Anthropic 发布的推理大模型模型。

了解更多无体验地址

核心信息

开发机构

Anthropic

发布时间 2025-05-23

模型类型推理大模型

MoE 架构

性能与规格

总参数量未公开

激活参数量未公开

模型大小

推理能力

推理速度

思考模式

深度思考

最大上下文 200K

最大输出 64000

支持模态

Input

Output

开源与许可

代码开源 --

权重开源 --

商业用途不开源

相关资源

论文/报告查看

模型详细介绍阅读

相关链接

Claude Opus 4

Anthropic 发布的推理大模型模型。

了解更多在线体验

核心信息

开发机构

Anthropic

发布时间 2025-05-23

模型类型推理大模型

MoE 架构

性能与规格

总参数量未公开

激活参数量未公开

模型大小

推理能力

推理速度

思考模式

深度思考

最大上下文 200K

最大输出 32000

支持模态

Input

Output

开源与许可

代码开源 --

权重开源 --

商业用途不开源

相关资源

论文/报告查看

模型详细介绍阅读

相关链接

DeepSeek-R1-0528

DeepSeek-AI 发布的推理大模型模型。

了解更多在线体验

核心信息

开发机构

DeepSeek-AI

发布时间 2025-05-28

模型类型推理大模型

MoE 架构

性能与规格

总参数量 6,710 亿

激活参数量 370 亿

模型大小 685GB

推理能力

推理速度

思考模式

深度思考

最大上下文 64K

最大输出 64000

支持模态

Input

Output

开源与许可

代码开源否

权重开源否

商业用途免费商用授权

相关资源

论文/报告查看

模型详细介绍 --

相关链接

Gemini 2.5-Pro

Google Deep Mind 发布的推理大模型模型。

了解更多在线体验

核心信息

开发机构

Google Deep Mind

发布时间 2025-06-05

模型类型推理大模型

MoE 架构

性能与规格

总参数量未公开

激活参数量未公开

模型大小

推理能力

推理速度

思考模式

深度思考

最大上下文 1000K

最大输出 65536

支持模态

Input

Output

开源与许可

代码开源 --

权重开源 --

商业用途不开源

相关资源

论文/报告查看

模型详细介绍阅读

相关链接

o3-pro与Grok 3、OpenAI o3、Claude Sonnet 4等模型各评测基准得分对比表

评测基准	o3-pro normal	Grok 3 normal	OpenAI o3 thinking	OpenAI o3 normal	Claude Sonnet 4 deeper_thinking + 使用工具	Claude Sonnet 4 thinking	Claude Sonnet 4 normal	Claude Opus 4 normal	DeepSeek-R1-0528 thinking	Gemini 2.5-Pro thinking	Gemini 2.5-Pro normal
GPQA Diamond 综合评估	84	80.4	83.3	--	83.8	75.4	68	79.6	81	86.4	--
AIME 2024 数学推理	93	84.2	--	91.6	--	--	43.4	76	91.4	--	92

o3-pro与Grok 3、OpenAI o3、Claude Sonnet 4等模型评测结果汇总对比图

蓝色柱状系列表示选定模型 o3-pro 在不同模式下的表现

o3-pro与Grok 3、OpenAI o3、Claude Sonnet 4等模型对比

o3-pro与Grok 3、OpenAI o3、Claude Sonnet 4等模型各评测基准得分对比表

o3-pro与Grok 3、OpenAI o3、Claude Sonnet 4等模型评测结果汇总对比图

o3-pro与Grok 3、OpenAI o3、Claude Sonnet 4等模型的API价格对比图 (文本输入/输出)

o3-pro与Grok 3、OpenAI o3、Claude Sonnet 4等模型在各评测基准详细对比