GPT-5 Reasoning大模型评测基准与性能对比

本页面提供了GPT-5 Reasoning,DeepSeek-R1-0528,Gemini-2.5-Pro-Preview-06-05,o3-pro,Grok 4 Heavy,Kimi K2,GPT-5模型在HLE,GPQA Diamond,SWE-bench Verified,AIME2025等评测基准中的详细对比数据，评测数据来源当前系统收录结果生成。数据如有问题可以通过微信公众号联系更正，感谢！

主要模型核心信息对比

对比项	GPT-5 Reasoning	DeepSeek-R1-0528	Gemini-2.5-Pro-Preview-06-05	o3-pro	Grok 4 Heavy	Kimi K2	GPT-5
参数量/规模	未公开	6,850 亿	未公开	未公开	未公开	10,000 亿	未公开
开发/发布机构	OpenAI	DeepSeek-AI	Google Deep Mind	OpenAI	xAI	Moonshot AI	OpenAI
发布时间	2025-07-15	2025-05-28	2025-06-05	2025-06-10	2025-07-10	2025-07-11	2025-07-15
最大上下文	128K	64K	1000K	200K	128K	131K	128K
最大输出	4096	64000	65536	100000	8192	134144	4096
开源/闭源	不开源	免费商用授权	不开源	不开源	不开源	免费商用授权	不开源
输入价格	2 美元/100 万tokens	0.55 美元/ 100 万tokens	1.25 美元/100 万tokens	20 美元/100万 tokens		0.6 美元/100 万tokens	2 美元/100 万tokens
输出价格	8 美元/100 万tokens	2.19 美元/ 100 万tokens	10 美元/100 万tokens	80 美元/100万 tokens		2.5 美元/100 万tokens	8 美元/100 万tokens
论文/报告		查看论文	查看论文	查看论文		查看论文
在线体验	立即体验	立即体验	立即体验	立即体验	--	立即体验	立即体验

GPT-5 Reasoning模型与主流模型各评测基准得分对比表

评测基准	GPT-5 Reasoning normal	DeepSeek-R1-0528 normal	Gemini-2.5-Pro-Preview-06-05 normal	o3-pro normal	Grok 4 Heavy normal	Kimi K2 normal	GPT-5 normal
HLE 知识问答	0	17.7	21.6	21	44.4	4.7	0
GPQA Diamond 常识推理	0	81	86.4	84	88.9	75.1	0
SWE-bench Verified 代码生成	0	57.6	59.6	75	73.5	51.8	0
AIME2025 数学推理	0	87.5	88	93	100	54	0

GPT-5 Reasoning模型与其它模型评测结果汇总对比图

GPT-5 Reasoning模型与其它模型的API价格对比图 (文本输入/输出)

GPT-5 Reasoning模型在各评测基准详细对比