支持不同模式与工具的榜单对比。
模式筛选
选择思考模式 / 工具使用 / 是否去除并行,更新下方柱状对比。
模型数据收集自官网、Artificial Analysis等页面
完整列出各模型/模式的评测得分,便于横向比较。
评测得分表格
直观查看各模型/模式在每个评测基准上的得分。
| 评测基准 | GR Grok 4 FastxAI | GR Grok 4xAI | GP GPT-5OpenAI | GE Gemini 2.5-ProGoogle Deep Mind | ||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 综合评估 | ||||||||||||||
GPQA Diamond | — | 85.70 | — | — | 87.00 | — | — | 77.80 | 85.70 | — | — | 87.30 | — | 86.40 |
HLE | — | 20.00 | — | — | 25.40 | 38.60 | 38.60 | 6.30 | — | — | 24.80 | 35.20 | — | 21.60 |
LiveBench | 68.09 | — | — | 72.84 | — | — | — | — | 79.33 | 78.85 | — | — | — | 71.92 |
| 常识问答 | ||||||||||||||
SimpleQA | — | — | 95.00 | — | — | — | — | — | — | — | — | — | 54.00 | — |
| 编程与软件工程 | ||||||||||||||
LiveCodeBench | — | 80.00 | — | — | 82.00 | — | — | — | — | — | — | — | 77.10 | — |
| 数学推理 | ||||||||||||||
AIME2025 | — | 92.00 | — | — | 91.70 | 98.80 | — | 61.90 | — | — | 94.60 | 99.60 | — | 88.00 |
其他能力
是否 MoE、商业授权、模态支持等附加能力对比。
| 功能与规格 | GR Grok 4 FastxAI | GR Grok 4xAI | GP GPT-5OpenAI | GE Gemini 2.5-ProGoogle Deep Mind |
|---|---|---|---|---|
模型信息卡片 | ||||
开发机构 | xAI | xAI | OpenAI | Google Deep Mind |
模型全名 | Grok 4 Fast | Grok 4 | GPT-5 | Gemini 2.5-Pro |
模型简介 | 未提供 | 未提供 | 未提供 | 未提供 |
模型类型 | 聊天大模型 | 推理大模型 | 基础大模型 | 推理大模型 |
模型代号 | Grok-4-Fast | grok-4 | gpt-5 | gemini-2_5-pro-preview-06-05 |
发布时间 | 2025-09-19 | 2025-07-10 | 2025-08-07 | 2025-06-05 |
MoE 架构 | 不支持 | 不支持 | 不支持 | 不支持 |
规格与性能 | ||||
上下文 | 2000K | 256K | 400K | 1000K |
参数量 | — | — | — | — |
激活参数量 | 未提供 | 未提供 | 未提供 | 未提供 |
模型规模 | 未知 | 未知 | 未知 | 未知 |
模型大小 | 未提供 | 未提供 | 未提供 | 未提供 |
推理速度 | ||||
推理等级 | ||||
最大输出 | 4096 | 262144 | 131072 | 65536 |
支持模式 | 常规模式(Non-Thinking Mode)思考模式(Thinking Mode) | 常规模式(Non-Thinking Mode)思考模式(Thinking Mode)深度思考(Deeper Thinking Mode) | 常规模式(Non-Thinking Mode)思考模式(Thinking Mode)深度思考(Deeper Thinking Mode) | 常规模式(Non-Thinking Mode)思考模式(Thinking Mode)深度思考(Deeper Thinking Mode) |
开源与许可 | ||||
代码开源 | 未提供 | 未提供 | 未提供 | 未提供 |
权重开源 | 未提供 | 未提供 | 未提供 | 未提供 |
商业授权 | 不开源 | 不开源 | 不开源 | 不开源 |
模态支持 | ||||
文本 输入/输出 | / | / | / | / |
图片 输入/输出 | / | / | / | / |
音频 输入/输出 | / | / | / | / |
视频 输入/输出 | / | / | / | / |
Embedding 输入/输出 | / | / | / | / |
API 接口详情 | ||||
文本 价格 | 输入:0.2 美元/100万 tokens输出:0.5 美元/100万 tokens | 输入:3 美元/100 万tokens输出:15 美元/100 万tokens | 输入:1.25 美元/100 万tokens输出:10 美元/100 万tokens | 输入:1.25 美元/100 万tokens输出:10 美元/100 万tokens缓存价:0.125 美元/100 万tokens输入超长:2.5 美元/100 万tokens输出超长:15 美元/100 万tokens超长阈值:200K |
图片 价格 | 输入:0.2 美元/100万 tokens | 输入:3 美元/100 万tokens | 未提供 | 输入:1.25 美元/100 万tokens缓存价:0.125 美元/100 万tokens |
音频 价格 | 未提供 | 未提供 | 未提供 | 未提供 |
视频 价格 | 未提供 | 未提供 | 未提供 | 未提供 |
Embedding 价格 | 未提供 | 未提供 | 未提供 | 未提供 |
资源与链接 | ||||
GitHub | 未提供 | 未提供 | 未提供 | 未提供 |
Hugging Face | 未提供 | 未提供 | 未提供 | 未提供 |
官方页面 | 未提供 | 未提供 | 未提供 | 未提供 |
实用指南 | 未提供 | 未提供 | 未提供 | 未提供 |
论文/报告 | Grok 4 Fast Pushing the Frontier of Cost-Efficient Intelligence | Grok 4 | Introducing GPT-5 | Try the latest Gemini 2.5 Pro before general availability. |
DataLearnerAI 博客 | 大模型速度、效果与价格的完美结合?xAI发布Grok 4 Fast:性能接近Grok 4,成本降 98%,生成速度翻倍! | AIME 2025满分,xAI正式发布Grok模型,其中Grok 4 Heavy评测超越当前所有大模型,美国数学竞赛满分!一年3000美元订阅费! | OpenAI发布GPT-5:这是一个包含实时路由的AI系统,而不仅仅是一个模型 | Google发布Gemini 2.5 Pro: Gemini系列第一个2.5版本的模型,最高支持200万上下文,全模态输入,推理大模型,LMArena排名第一 |
API 价格
输入输出 token 价格并排展示