模型对比

本页面提供了GPT-5-Pro,Grok 4 Heavy,Gemini 2.5 Deep Think模型在AIME2025,HLE,GPQA Diamond等评测基准中的详细对比数据,评测数据来源当前系统收录结果生成。数据如有问题可以通过微信公众号联系更正,感谢!

GPT-5-Pro
GPT-5-Pro

OpenAI 发布的推理大模型模型。

核心信息
开发机构 OpenAI OpenAI
发布时间 2025-08-07
模型类型 推理大模型
MoE 架构
性能与规格
总参数量 未公开
激活参数量 未公开
模型大小
推理能力
推理速度
思考模式
深度思考
最大上下文 400K
最大输出 128000
支持模态
T T
Input
Output
API 价格 (每百万Tokens)
输入价格 1.25 美元/100 万tokens
输出价格 10 美元/100 万tokens
开源与许可
代码开源 --
权重开源 --
商业用途 不开源
相关资源
论文/报告 查看
模型详细介绍 --
相关链接
Grok 4 Heavy
Grok 4 Heavy

xAI 发布的聊天大模型模型。

核心信息
开发机构 xAI xAI
发布时间 2025-07-10
模型类型 聊天大模型
MoE 架构
性能与规格
总参数量 未公开
激活参数量 未公开
模型大小
推理能力
推理速度
思考模式
深度思考
最大上下文 128K
最大输出 8192
支持模态
T T
Input
Output
API 价格 (每百万Tokens)
输入价格
输出价格
开源与许可
代码开源 --
权重开源 --
商业用途 不开源
相关资源
论文/报告
模型详细介绍 --
相关链接
Gemini 2.5 Deep Think
Gemini 2.5 Deep Think

Google Deep Mind 发布的聊天大模型模型。

核心信息
开发机构 Google Deep Mind Google Deep Mind
发布时间 2025-08-01
模型类型 聊天大模型
MoE 架构
性能与规格
总参数量 未公开
激活参数量 未公开
模型大小
推理能力
推理速度
思考模式
深度思考
最大上下文 1000K
最大输出 16384
支持模态
T T
Input
Output
API 价格 (每百万Tokens)
输入价格 0.4 美元/100 万tokens
输出价格 1.6 美元/100 万tokens
开源与许可
代码开源 --
权重开源 --
商业用途 不开源
相关资源
论文/报告 查看
模型详细介绍 --
相关链接 🤗

GPT-5-Pro模型与主流模型各评测基准得分对比表

评测基准 GPT-5-Pro thinking + 使用工具 GPT-5-Pro thinking Grok 4 Heavy normal Gemini 2.5 Deep Think deeper_thinking
AIME2025
数学推理
100 96.7 100 99.2
HLE
知识问答
42 30.7 44.4 34.8
GPQA Diamond
常识推理
89.4 88.4 88.9 0

GPT-5-Pro模型与其它模型评测结果汇总对比图

GPT-5-Pro模型与其它模型的API价格对比图 (文本输入/输出)

GPT-5-Pro模型在各评测基准详细对比