模型对比
本页面提供了GPT-5-Pro,Grok 4 Heavy,Gemini 2.5 Deep Think模型在AIME2025,HLE,GPQA Diamond等评测基准中的详细对比数据,评测数据来源当前系统收录结果生成。数据如有问题可以通过微信公众号联系更正,感谢!
GPT-5-Pro
OpenAI 发布的推理大模型模型。
Grok 4 Heavy
xAI 发布的聊天大模型模型。
核心信息
开发机构
xAI
发布时间
2025-07-10
模型类型
聊天大模型
MoE 架构
性能与规格
总参数量
未公开
激活参数量
未公开
模型大小
推理能力
推理速度
思考模式
深度思考
最大上下文
128K
最大输出
8192
支持模态
Input
Output
API 价格 (每百万Tokens)
输入价格
输出价格
开源与许可
代码开源
--
权重开源
--
商业用途
不开源
相关资源
论文/报告
模型详细介绍
--
相关链接
Gemini 2.5 Deep Think
Google Deep Mind 发布的聊天大模型模型。
核心信息
开发机构
Google Deep Mind

发布时间
2025-08-01
模型类型
聊天大模型
MoE 架构
性能与规格
总参数量
未公开
激活参数量
未公开
模型大小
推理能力
推理速度
思考模式
深度思考
最大上下文
1000K
最大输出
16384
支持模态
Input
Output
API 价格 (每百万Tokens)
输入价格
0.4 美元/100 万tokens
输出价格
1.6 美元/100 万tokens
开源与许可
代码开源
--
权重开源
--
商业用途
不开源
相关资源
论文/报告
查看
模型详细介绍
--
相关链接
GPT-5-Pro模型与主流模型各评测基准得分对比表
评测基准 | GPT-5-Pro thinking + 使用工具 | GPT-5-Pro thinking | Grok 4 Heavy normal | Gemini 2.5 Deep Think deeper_thinking |
---|---|---|---|---|
AIME2025
数学推理
|
100 | 96.7 | 100 | 99.2 |
HLE
知识问答
|
42 | 30.7 | 44.4 | 34.8 |
GPQA Diamond
常识推理
|
89.4 | 88.4 | 88.9 | 0 |