模型评测对比
最新基准汇总
Grok 4 Fast与Gemini 2.5-Pro、Grok 4、GPT-5模型对比
本页面提供Grok 4 Fast,Gemini 2.5-Pro,Grok 4,GPT-5模型的对比,包括参数、开源情况、API价格等。同时,页面也会展示Grok 4 Fast,Gemini 2.5-Pro,Grok 4,GPT-5模型在ARC-AGI,ARC-AGI-2,GPQA Diamond,HLE,LiveBench,MMLU Pro,SimpleQA,LiveCodeBench,SWE-Bench Pro - Public,SWE-bench Verified,AIME 2024,AIME2025,FrontierMath,FrontierMath - Tier 4,IMO-ProofBench,IOI 2024,IOI 2025,MATH-500,Aider-Polyglot,Terminal-Bench,τ²-Bench,τ²-Bench - Telecom,Simple Bench,MMMU,IF Bench,BrowseComp,Creative Writing等评测基准中的详细对比数据,评测数据来自系统收录结果汇总。
📊 左右滑动可查看更多模型数据 →
Grok 4 Fast
xAI 发布的聊天大模型模型。
Gemini 2.5-Pro
Google Deep Mind 发布的推理大模型模型。
核心信息
开发机构
Google Deep Mind
Google Deep Mind
发布时间
2025-06-05
模型类型
推理大模型
MoE 架构
性能与规格
总参数量
未公开
激活参数量
未公开
模型大小
推理能力
推理速度
思考模式
深度思考
最大上下文
1000K
最大输出
65536
支持模态
Input
Output
开源与许可
开源与许可
代码开源
--
权重开源
--
商业用途
不开源
相关资源
论文/报告
查看
模型详细介绍
阅读
相关链接
Grok 4
xAI 发布的推理大模型模型。
评测对比模式筛选
当前大多数模型的评测都有不同的模式,包括是否使用推理过程,是否使用工具等,建议选择特定模式对比。
点击下方任一按钮,将 过滤模型的模式的对比表格,并同步更新
汇总图 与 各基准小图。
快捷组合
思考模式
说明:Thinking(默认)在检测到 low / medium / high 子模式时只保留 medium 版本,点击 Thinking(全部)可查看所有子模式。
工具使用
Grok 4 Fast与Gemini 2.5-Pro、Grok 4、GPT-5模型各评测基准得分对比表
| 评测基准 |
Grok 4 Fast
thinking
|
Grok 4 Fast
thinking + 使用工具
|
Grok 4 Fast
normal
|
Gemini 2.5-Pro
thinking
|
Gemini 2.5-Pro
normal
|
Grok 4
thinking
|
Grok 4
normal
|
Grok 4
deeper_thinking
|
Grok 4
thinking + 使用工具+联网
|
Grok 4
thinking + 使用工具
|
GPT-5
high
|
GPT-5
medium
|
GPT-5
low
|
GPT-5
normal
|
GPT-5
thinking
|
GPT-5
thinking + 使用工具
|
GPT-5
high + 使用工具
|
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
ARC-AGI
综合评估
|
-- | -- | -- | 37 | -- | 66.7 | -- | -- | -- | -- | 65.7 | 56.2 | 44 | 6 | -- | -- | -- |
|
ARC-AGI-2
综合评估
|
-- | -- | -- | 4.9 | -- | 15.9 | -- | -- | -- | -- | 9.9 | 7.5 | 1.9 | 0 | -- | -- | -- |
|
GPQA Diamond
综合评估
|
85.7 | -- | -- | 86.4 | -- | 87 | -- | -- | -- | -- | 85.7 | -- | -- | 77.8 | -- | 87.3 | -- |
|
HLE
综合评估
|
20 | -- | -- | 21.6 | -- | 25.4 | -- | -- | 38.6 | 38.6 | -- | -- | -- | 6.3 | 24.8 | 35.2 | -- |
|
LiveBench
综合评估
|
-- | -- | 68.09 | 71.92 | -- | -- | 72.84 | -- | -- | -- | 79.33 | 78.85 | -- | -- | -- | -- | -- |
|
MMLU Pro
综合评估
|
-- | -- | -- | -- | 86 | 87 | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- |
|
SimpleQA
真实性评估
|
-- | 95 | -- | -- | 54 | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- |
|
LiveCodeBench
编程与软件工程
|
80 | -- | -- | -- | 77.1 | 82 | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- |
|
SWE-Bench Pro - Public
编程与软件工程
|
-- | -- | -- | -- | -- | -- | -- | -- | -- | -- | 36.3 | -- | -- | -- | -- | -- | -- |
|
SWE-bench Verified
编程与软件工程
|
-- | -- | -- | 67.2 | -- | 58.6 | -- | -- | -- | -- | 72.8 | -- | -- | -- | -- | -- | -- |
|
AIME 2024
数学推理
|
-- | -- | -- | -- | 92 | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- |
|
AIME2025
数学推理
|
92 | -- | -- | 88 | -- | 91.7 | -- | -- | -- | 98.8 | -- | -- | -- | 61.9 | 94.6 | 99.6 | -- |
|
FrontierMath
数学推理
|
-- | -- | -- | -- | 11 | -- | 12.1 | -- | -- | -- | 24.8 | 24.8 | -- | -- | -- | -- | 26.3 |
|
FrontierMath - Tier 4
数学推理
|
-- | -- | -- | -- | 4.2 | -- | 2.1 | -- | -- | -- | 8.3 | 6.3 | -- | -- | -- | -- | -- |
|
IMO-ProofBench
数学推理
|
-- | -- | -- | 17.6 | -- | 18.6 | -- | 23.3 | -- | -- | -- | -- | -- | -- | 20 | -- | -- |
|
IOI 2024
数学推理
|
-- | -- | -- | 19 | -- | 23.2 | -- | -- | -- | -- | -- | -- | -- | -- | 11 | -- | -- |
|
IOI 2025
数学推理
|
-- | -- | -- | 15.2 | -- | 29.2 | -- | -- | -- | -- | -- | -- | -- | -- | 29 | -- | -- |
|
MATH-500
数学推理
|
-- | -- | -- | -- | 98.8 | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- |
|
Aider-Polyglot
Agent能力评测
|
-- | -- | -- | 83.1 | -- | 79.6 | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- |
|
Terminal-Bench
Agent能力评测
|
-- | -- | -- | 25.3 | -- | -- | -- | -- | -- | 38 | -- | -- | -- | -- | -- | 43.8 | -- |
|
τ²-Bench
Agent能力评测
|
-- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | 80 | -- |
|
τ²-Bench - Telecom
Agent能力评测
|
-- | -- | -- | -- | -- | -- | -- | -- | -- | 75 | -- | -- | -- | -- | -- | 95.8 | 96.7 |
|
Simple Bench
常识推理
|
-- | -- | -- | 62.4 | -- | 60.5 | -- | -- | -- | -- | 56.7 | -- | -- | -- | -- | -- | -- |
|
MMMU
多模态理解
|
-- | -- | -- | 82 | -- | -- | -- | -- | -- | -- | 84.2 | -- | -- | -- | -- | -- | -- |
|
IF Bench
指令跟随
|
-- | -- | -- | -- | -- | -- | -- | -- | -- | -- | 73.1 | -- | -- | -- | -- | -- | -- |
|
BrowseComp
AI Agent - 信息收集
|
-- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | 54.9 | 90 |
|
Creative Writing
写作和创作
|
-- | -- | -- | -- | 85.85 | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- |
OpenAI