模型评测对比 最新基准汇总

GPT-5与Gemini 2.5-Pro、Grok 4模型对比

本页面提供GPT-5,Gemini 2.5-Pro,Grok 4模型的对比,包括参数、开源情况、API价格等。同时,页面也会展示GPT-5,Gemini 2.5-Pro,Grok 4模型在ARC-AGI,HLE,GPQA Diamond,ARC-AGI-2,Simple Bench等评测基准中的详细对比数据,评测数据来自系统收录结果汇总。
📊 左右滑动可查看更多模型数据 →
GPT-5
GPT-5

OpenAI 发布的基础大模型模型。

核心信息
开发机构 OpenAI OpenAI
发布时间 2025-08-07
模型类型 基础大模型
MoE 架构
性能与规格
总参数量 未公开
激活参数量 未公开
模型大小
推理能力
推理速度
思考模式
深度思考
最大上下文 400K
最大输出 131072
支持模态
T T
Input
Output
开源与许可
开源与许可
代码开源 --
权重开源 --
商业用途 不开源
相关资源
论文/报告 查看
模型详细介绍 阅读
相关链接
Gemini 2.5-Pro
Gemini 2.5-Pro

Google Deep Mind 发布的推理大模型模型。

核心信息
开发机构 Google Deep Mind Google Deep Mind
发布时间 2025-06-05
模型类型 推理大模型
MoE 架构
性能与规格
总参数量 未公开
激活参数量 未公开
模型大小
推理能力
推理速度
思考模式
深度思考
最大上下文 1000K
最大输出 65536
支持模态
T T
Input
Output
开源与许可
开源与许可
代码开源 --
权重开源 --
商业用途 不开源
相关资源
论文/报告 查看
模型详细介绍 阅读
相关链接
Grok 4
Grok 4

xAI 发布的推理大模型模型。

核心信息
开发机构 xAI xAI
发布时间 2025-07-10
模型类型 推理大模型
MoE 架构
性能与规格
总参数量 未公开
激活参数量 未公开
模型大小
推理能力
推理速度
思考模式
深度思考
最大上下文 256K
最大输出 262144
支持模态
T T
Input
Output
开源与许可
开源与许可
代码开源 --
权重开源 --
商业用途 不开源
相关资源
论文/报告 查看
模型详细介绍 阅读
相关链接
评测对比模式筛选
当前大多数模型的评测都有不同的模式,包括是否使用推理过程,是否使用工具等,建议选择特定模式对比。 点击下方任一按钮,将 过滤模型的模式的对比表格,并同步更新 汇总图各基准小图
快捷组合
思考模式

说明:Thinking(默认)在检测到 low / medium / high 子模式时只保留 medium 版本,点击 Thinking(全部)可查看所有子模式。

工具使用

GPT-5与Gemini 2.5-Pro、Grok 4模型各评测基准得分对比表

评测基准
GPT-5 high
GPT-5 medium
GPT-5 low
GPT-5 normal
GPT-5 thinking
GPT-5 thinking + 使用工具
Gemini 2.5-Pro thinking
Grok 4 thinking
Grok 4 thinking + 使用工具
Grok 4 thinking + 使用工具+联网
ARC-AGI
综合评估
65.7 56.2 44 6 -- -- 37 66.7 -- --
HLE
综合评估
-- -- -- 6.3 24.8 35.2 21.6 25.4 38.6 38.6
GPQA Diamond
综合评估
85.7 -- -- 77.8 -- 87.3 86.4 87 -- --
ARC-AGI-2
综合评估
9.9 7.5 1.9 0 -- -- 4.9 15.9 -- --
Simple Bench
常识推理
56.7 -- -- -- -- -- 62.4 60.5 -- --

GPT-5与Gemini 2.5-Pro、Grok 4模型评测结果汇总对比图

蓝色柱状系列表示选定模型 GPT-5 在不同模式下的表现

GPT-5与Gemini 2.5-Pro、Grok 4模型的API价格对比图 (文本输入/输出)

GPT-5与Gemini 2.5-Pro、Grok 4模型在各评测基准详细对比