模型评测对比 最新基准汇总

GPT-5与Gemini-2.5-Pro、Grok 4模型对比

2025年夏季发布的三款顶级大模型GPT-5、Gemini-2.5-Pro和Grok 4均为非开源的商业模型。然而,在具体能力和市场定位上,三者展现出鲜明的差异化策略。从评测结果来看,GPT-5在多项指标上表现均衡,Gemini-2.5-Pro凭借其高达100万tokens的上下文窗口,在处理超长文本方面独占鳌头;Grok 4则以其强大的综合评估能力和知识广度见长。

以下是基于数据对比得出的几点核心结论:

  1. Grok 4在知识密集型与复杂推理任务中表现突出。在代表通用知识水平的ARC-AGI评测和衡量综合评估能力的ARC-AGI-2基准中,Grok 4的得分均位列第一,尤其在ARC-AGI-2中,其得分(15.9)远超GPT-5(9.9)和Gemini-2.5-Pro(4.9)。同时,它在知识问答(HLE)中也取得了最高分。这有力地证明了Grok 4在整合和运用其庞大知识库解决复杂、多维度问题上的卓越能力,可能特别适合需要深度研究和分析的场景。
  2. Gemini-2.5-Pro在常识推理领域展现出领先优势。在两项主要的常识推理评测——GPQA Diamond和Simple Bench中,Gemini-2.5-Pro的得分均非常靠前,尤其是在Simple Bench中以62.4分夺冠。这表明该模型在理解和应用日常逻辑与普通常识方面经过了良好优化。结合其业界最大的100万tokens上下文窗口,Gemini-2.5-Pro在需要长程依赖和上下文理解的复杂推理任务(如长篇文档摘要、法律合同分析等)中可能拥有无与伦比的潜力。
  3. GPT-5定位为能力均衡的“多边形战士”,但在特定评测中优势不显。作为OpenAI推出的新一代基础大模型,GPT-5在各项核心指标(如上下文长度、最大输出)上处于行业领先水平,但并非最顶尖。在所有五项基准评测中,GPT-5没有一项取得最高分,但其得分普遍稳定,与领先者的差距并不大。这反映出GPT-5可能被设计为一个能力全面、表现稳健的“通才”,旨在适应最广泛的应用场景,而非在单一维度上追求极致。其与Gemini-2.5-Pro完全相同的定价策略,也揭示了其在主流市场的直接竞争姿态。

此外,GPT-5与Gemini-2.5-Pro的API定价完全一致,显示出OpenAI和Google DeepMind在争夺广大开发者和企业客户市场上的激烈竞争。而Grok 4的输入价格(3美元/百万tokens)和输出价格(15美元/百万tokens)显著高于前两者。

综合来看,GPT-5在通用性与稳定性上占据优势,适合作为通用 AI 服务的核心模型;Gemini-2.5-Pro上下文规模大但表现不均,更偏向长文本处理与特定任务;Grok 4在部分推理任务中表现突出,但成本与适用范围需权衡。

📊 左右滑动可查看更多模型数据 →
GPT-5
GPT-5

OpenAI 发布的基础大模型模型。

核心信息
开发机构 OpenAI OpenAI
发布时间 2025-08-07
模型类型 基础大模型
MoE 架构
性能与规格
总参数量 未公开
激活参数量 未公开
模型大小
推理能力
推理速度
思考模式
深度思考
最大上下文 400K
最大输出 131072
支持模态
T T
Input
Output
API 价格 (每百万Tokens)
输入价格 1.25 美元/100 万tokens
输出价格 10 美元/100 万tokens
开源与许可
代码开源 --
权重开源 --
商业用途 不开源
相关资源
论文/报告 查看
模型详细介绍 阅读
相关链接
Gemini-2.5-Pro
Gemini-2.5-Pro

Google Deep Mind 发布的推理大模型模型。

核心信息
开发机构 Google Deep Mind Google Deep Mind
发布时间 2025-06-05
模型类型 推理大模型
MoE 架构
性能与规格
总参数量 未公开
激活参数量 未公开
模型大小
推理能力
推理速度
思考模式
深度思考
最大上下文 1000K
最大输出 65536
支持模态
T T
Input
Output
API 价格 (每百万Tokens)
输入价格 1.25 美元/100 万tokens
输出价格 10 美元/100 万tokens
开源与许可
代码开源 --
权重开源 --
商业用途 不开源
相关资源
论文/报告 查看
模型详细介绍 阅读
相关链接
Grok 4
Grok 4

xAI 发布的推理大模型模型。

核心信息
开发机构 xAI xAI
发布时间 2025-07-10
模型类型 推理大模型
MoE 架构
性能与规格
总参数量 未公开
激活参数量 未公开
模型大小
推理能力
推理速度
思考模式
深度思考
最大上下文 256K
最大输出 262144
支持模态
T T
Input
Output
API 价格 (每百万Tokens)
输入价格 3 美元/100 万tokens
输出价格 15 美元/100 万tokens
开源与许可
代码开源 --
权重开源 --
商业用途 不开源
相关资源
论文/报告 查看
模型详细介绍 阅读
相关链接
评测对比模式筛选
当前大多数模型的评测都有不同的模式,包括是否使用推理过程,是否使用工具等,建议选择特定模式对比。 点击下方任一按钮,将 过滤模型的模式的对比表格,并同步更新 汇总图各基准小图

GPT-5与Gemini-2.5-Pro、Grok 4模型各评测基准得分对比表

评测基准 GPT-5 thinking GPT-5 thinking + 使用工具 GPT-5 normal Gemini-2.5-Pro thinking Grok 4 thinking Grok 4 thinking + 使用工具+联网
ARC-AGI
通用知识
65.7 65.7 0 37 66.7 0
HLE
知识问答
24.8 35.2 6.3 21.6 25.4 38.6
GPQA Diamond
常识推理
85.7 87.3 77.8 86.4 87 0
ARC-AGI-2
综合评估
9.9 9.9 0 4.9 15.9 0
Simple Bench
常识推理
56.7 0 0 62.4 60.5 0

GPT-5与Gemini-2.5-Pro、Grok 4模型评测结果汇总对比图

GPT-5与Gemini-2.5-Pro、Grok 4模型的API价格对比图 (文本输入/输出)

GPT-5与Gemini-2.5-Pro、Grok 4模型在各评测基准详细对比