GPT-5 Reasoning大模型评测基准与性能对比
本页面提供了GPT-5 Reasoning,DeepSeek-R1-0528,Gemini-2.5-Pro-Preview-06-05,o3-pro,Grok 4 Heavy,Kimi K2,GPT-5模型在HLE,GPQA Diamond,SWE-bench Verified,AIME2025等评测基准中的详细对比数据,评测数据来源当前系统收录结果生成。数据如有问题可以通过微信公众号联系更正,感谢!
主要模型核心信息对比
对比项 | GPT-5 Reasoning | DeepSeek-R1-0528 | Gemini-2.5-Pro-Preview-06-05 | o3-pro | Grok 4 Heavy | Kimi K2 | GPT-5 |
---|---|---|---|---|---|---|---|
参数量/规模 | 未公开 | 6,850 亿 | 未公开 | 未公开 | 未公开 | 10,000 亿 | 未公开 |
开发/发布机构 | |||||||
发布时间 | 2025-07-15 | 2025-05-28 | 2025-06-05 | 2025-06-10 | 2025-07-10 | 2025-07-11 | 2025-07-15 |
最大上下文 | 128K | 64K | 1000K | 200K | 128K | 131K | 128K |
最大输出 | 4096 | 64000 | 65536 | 100000 | 8192 | 134144 | 4096 |
开源/闭源 | 不开源 | 免费商用授权 | 不开源 | 不开源 | 不开源 | 免费商用授权 | 不开源 |
输入价格 | 2 美元/100 万tokens | 0.55 美元/ 100 万tokens | 1.25 美元/100 万tokens | 20 美元/100万 tokens | 0.6 美元/100 万tokens | 2 美元/100 万tokens | |
输出价格 | 8 美元/100 万tokens | 2.19 美元/ 100 万tokens | 10 美元/100 万tokens | 80 美元/100万 tokens | 2.5 美元/100 万tokens | 8 美元/100 万tokens | |
论文/报告 | 查看论文 | 查看论文 | 查看论文 | 查看论文 | |||
在线体验 | 立即体验 | 立即体验 | 立即体验 | 立即体验 | -- | 立即体验 | 立即体验 |
GPT-5 Reasoning模型与主流模型各评测基准得分对比表
评测基准 | GPT-5 Reasoning
normal |
DeepSeek-R1-0528
normal |
Gemini-2.5-Pro-Preview-06-05
normal |
o3-pro
normal |
Grok 4 Heavy
normal |
Kimi K2
normal |
GPT-5
normal |
---|---|---|---|---|---|---|---|
HLE
知识问答
|
0 | 17.7 | 21.6 | 21 | 44.4 | 4.7 | 0 |
GPQA Diamond
常识推理
|
0 | 81 | 86.4 | 84 | 88.9 | 75.1 | 0 |
SWE-bench Verified
代码生成
|
0 | 57.6 | 59.6 | 75 | 73.5 | 51.8 | 0 |
AIME2025
数学推理
|
0 | 87.5 | 88 | 93 | 100 | 54 | 0 |