GPT-5 Reasoning大模型评测基准与性能对比

本页面提供了GPT-5 Reasoning,DeepSeek-R1-0528,Gemini-2.5-Pro-Preview-06-05,o3-pro,Grok 4 Heavy,Kimi K2,GPT-5模型在HLE,GPQA Diamond,SWE-bench Verified,AIME2025等评测基准中的详细对比数据,评测数据来源当前系统收录结果生成。数据如有问题可以通过微信公众号联系更正,感谢!

主要模型核心信息对比

对比项 GPT-5 Reasoning DeepSeek-R1-0528 Gemini-2.5-Pro-Preview-06-05 o3-pro Grok 4 Heavy Kimi K2 GPT-5
参数量/规模 未公开 6,850 亿 未公开 未公开 未公开 10,000 亿 未公开
开发/发布机构
发布时间 2025-07-15 2025-05-28 2025-06-05 2025-06-10 2025-07-10 2025-07-11 2025-07-15
最大上下文 128K 64K 1000K 200K 128K 131K 128K
最大输出 4096 64000 65536 100000 8192 134144 4096
开源/闭源 不开源 免费商用授权 不开源 不开源 不开源 免费商用授权 不开源
输入价格 2 美元/100 万tokens 0.55 美元/ 100 万tokens 1.25 美元/100 万tokens 20 美元/100万 tokens 0.6 美元/100 万tokens 2 美元/100 万tokens
输出价格 8 美元/100 万tokens 2.19 美元/ 100 万tokens 10 美元/100 万tokens 80 美元/100万 tokens 2.5 美元/100 万tokens 8 美元/100 万tokens
论文/报告 查看论文 查看论文 查看论文 查看论文
在线体验 立即体验 立即体验 立即体验 立即体验 -- 立即体验 立即体验

GPT-5 Reasoning模型与主流模型各评测基准得分对比表

评测基准 GPT-5 Reasoning
normal
DeepSeek-R1-0528
normal
Gemini-2.5-Pro-Preview-06-05
normal
o3-pro
normal
Grok 4 Heavy
normal
Kimi K2
normal
GPT-5
normal
HLE
知识问答
0 17.7 21.6 21 44.4 4.7 0
GPQA Diamond
常识推理
0 81 86.4 84 88.9 75.1 0
SWE-bench Verified
代码生成
0 57.6 59.6 75 73.5 51.8 0
AIME2025
数学推理
0 87.5 88 93 100 54 0

GPT-5 Reasoning模型与其它模型评测结果汇总对比图

GPT-5 Reasoning模型与其它模型的API价格对比图 (文本输入/输出)

GPT-5 Reasoning模型在各评测基准详细对比