模型评测对比最新基准汇总

Grok 4 Heavy与OpenAI o3、Claude Opus 4、Gemini 2.5-Pro等模型对比

本页面提供Grok 4 Heavy,OpenAI o3,Claude Opus 4,Gemini 2.5-Pro,Grok 4模型的对比，包括参数、开源情况、API价格等。同时，页面也会展示Grok 4 Heavy,OpenAI o3,Claude Opus 4,Gemini 2.5-Pro,Grok 4模型在HLE,GPQA Diamond,AIME2025,ARC-AGI-2等评测基准中的详细对比数据，评测数据来自系统收录结果汇总。

📊 左右滑动可查看更多模型数据 →

Grok 4 Heavy

xAI 发布的聊天大模型模型。

了解更多无体验地址

核心信息

开发机构

xAI

发布时间 2025-07-10

模型类型聊天大模型

MoE 架构

性能与规格

总参数量未公开

激活参数量未公开

模型大小

推理能力

推理速度

思考模式

深度思考

最大上下文 128K

最大输出 8192

支持模态

Input

Output

开源与许可

代码开源 --

权重开源 --

商业用途不开源

相关资源

论文/报告

模型详细介绍 --

相关链接

OpenAI o3

OpenAI 发布的推理大模型模型。

了解更多在线体验

核心信息

开发机构

OpenAI

发布时间 2025-04-16

模型类型推理大模型

MoE 架构

性能与规格

总参数量未公开

激活参数量未公开

模型大小

推理能力

推理速度

思考模式

深度思考

最大上下文 200K

最大输出 100000

支持模态

Input

Output

开源与许可

代码开源 --

权重开源 --

商业用途不开源

相关资源

论文/报告查看

模型详细介绍 --

相关链接

Claude Opus 4

Anthropic 发布的推理大模型模型。

了解更多在线体验

核心信息

开发机构

Anthropic

发布时间 2025-05-23

模型类型推理大模型

MoE 架构

性能与规格

总参数量未公开

激活参数量未公开

模型大小

推理能力

推理速度

思考模式

深度思考

最大上下文 200K

最大输出 32000

支持模态

Input

Output

开源与许可

代码开源 --

权重开源 --

商业用途不开源

相关资源

论文/报告查看

模型详细介绍阅读

相关链接

Gemini 2.5-Pro

Google Deep Mind 发布的推理大模型模型。

了解更多在线体验

核心信息

开发机构

Google Deep Mind

发布时间 2025-06-05

模型类型推理大模型

MoE 架构

性能与规格

总参数量未公开

激活参数量未公开

模型大小

推理能力

推理速度

思考模式

深度思考

最大上下文 1000K

最大输出 65536

支持模态

Input

Output

开源与许可

代码开源 --

权重开源 --

商业用途不开源

相关资源

论文/报告查看

模型详细介绍阅读

相关链接

Grok 4

xAI 发布的推理大模型模型。

了解更多在线体验

核心信息

开发机构

xAI

发布时间 2025-07-10

模型类型推理大模型

MoE 架构

性能与规格

总参数量未公开

激活参数量未公开

模型大小

推理能力

推理速度

思考模式

深度思考

最大上下文 256K

最大输出 262144

支持模态

Input

Output

开源与许可

代码开源 --

权重开源 --

商业用途不开源

相关资源

论文/报告查看

模型详细介绍阅读

相关链接

Grok 4 Heavy与OpenAI o3、Claude Opus 4、Gemini 2.5-Pro等模型各评测基准得分对比表

评测基准	Grok 4 Heavy parallel_thinking + 使用工具	Grok 4 Heavy parallel_thinking	OpenAI o3 thinking	Claude Opus 4 normal	Gemini 2.5-Pro thinking	Grok 4 thinking + 使用工具	Grok 4 thinking + 使用工具+联网	Grok 4 thinking
HLE 综合评估	44.4	--	20.32	10.7	21.6	38.6	38.6	25.4
GPQA Diamond 综合评估	--	88.9	83.3	79.6	86.4	--	--	87
AIME2025 数学推理	--	100	88.9	75.5	88	98.8	--	91.7
ARC-AGI-2 综合评估	--	--	6.5	8.6	4.9	--	--	15.9

Grok 4 Heavy与OpenAI o3、Claude Opus 4、Gemini 2.5-Pro等模型评测结果汇总对比图

蓝色柱状系列表示选定模型 Grok 4 Heavy 在不同模式下的表现

Grok 4 Heavy与OpenAI o3、Claude Opus 4、Gemini 2.5-Pro等模型对比

Grok 4 Heavy与OpenAI o3、Claude Opus 4、Gemini 2.5-Pro等模型各评测基准得分对比表

Grok 4 Heavy与OpenAI o3、Claude Opus 4、Gemini 2.5-Pro等模型评测结果汇总对比图

Grok 4 Heavy与OpenAI o3、Claude Opus 4、Gemini 2.5-Pro等模型的API价格对比图 (文本输入/输出)

Grok 4 Heavy与OpenAI o3、Claude Opus 4、Gemini 2.5-Pro等模型在各评测基准详细对比