模型对比

本页面提供了GPT-5-Pro,Grok 4 Heavy,Gemini 2.5 Deep Think模型在AIME2025,HLE,GPQA Diamond等评测基准中的详细对比数据，评测数据来源当前系统收录结果生成。数据如有问题可以通过微信公众号联系更正，感谢！

GPT-5-Pro

OpenAI 发布的推理大模型模型。

了解更多在线体验

核心信息

开发机构

OpenAI

发布时间 2025-08-07

模型类型推理大模型

MoE 架构

性能与规格

总参数量未公开

激活参数量未公开

模型大小

推理能力

推理速度

思考模式

深度思考

最大上下文 400K

最大输出 128000

支持模态

Input

Output

API 价格 (每百万Tokens)

输入价格 1.25 美元/100 万tokens

输出价格 10 美元/100 万tokens

开源与许可

代码开源 --

权重开源 --

商业用途不开源

相关链接

Grok 4 Heavy

xAI 发布的聊天大模型模型。

了解更多无体验地址

核心信息

开发机构

xAI

发布时间 2025-07-10

模型类型聊天大模型

MoE 架构

性能与规格

总参数量未公开

激活参数量未公开

模型大小

推理能力

推理速度

思考模式

深度思考

最大上下文 128K

最大输出 8192

支持模态

Input

Output

API 价格 (每百万Tokens)

输入价格

输出价格

开源与许可

代码开源 --

权重开源 --

商业用途不开源

相关链接

Gemini 2.5 Deep Think

Google Deep Mind 发布的聊天大模型模型。

了解更多在线体验

核心信息

开发机构

Google Deep Mind

发布时间 2025-08-01

模型类型聊天大模型

MoE 架构

性能与规格

总参数量未公开

激活参数量未公开

模型大小

推理能力

推理速度

思考模式

深度思考

最大上下文 1000K

最大输出 16384

支持模态

Input

Output

API 价格 (每百万Tokens)

输入价格 0.4 美元/100 万tokens

输出价格 1.6 美元/100 万tokens

开源与许可

代码开源 --

权重开源 --

商业用途不开源

GPT-5-Pro模型与主流模型各评测基准得分对比表

评测基准	GPT-5-Pro thinking + 使用工具	GPT-5-Pro thinking	Grok 4 Heavy normal	Gemini 2.5 Deep Think deeper_thinking
AIME2025 数学推理	100	96.7	100	99.2
HLE 知识问答	42	30.7	44.4	34.8
GPQA Diamond 常识推理	89.4	88.4	88.9	0

模型对比

GPT-5-Pro模型与主流模型各评测基准得分对比表

GPT-5-Pro模型与其它模型评测结果汇总对比图

GPT-5-Pro模型与其它模型的API价格对比图 (文本输入/输出)

GPT-5-Pro模型在各评测基准详细对比