加载中...
加载中...
Gemma 4 31B 当前已收录的代表性评测结果包括 MMLU Pro(16 / 115,得分 85.20)、LiveCodeBench(21 / 108,得分 80)、GPQA Diamond(39 / 162,得分 84.30)。本页还提供与 3 个竞品模型及 2 个前代或同系列模型的对比,在有数据时会展示性能和价格视图。并附有 1 个数据来源链接供参考。
将 Gemma 4 31B 与同类头部模型进行多维评测对比,直观展示各项得分差异
水平视图(数据较多时自动切换)
6 项可对比评测得分汇总
| 评测项 | Gemma 4 31B(首位) | GLM-5 | Kimi K2.5 | Qwen3.5-27B |
|---|---|---|---|---|
GPQA Diamond 综合评估 | 84.30 思考模式(无工具) | 86.00 thinking | 87.60 思考模式(无工具) | 85.50 思考模式(无工具) |
HLE 综合评估 | 26.50 思考模式(工具+联网) | 50.40 thinking + 使用工具 | 30.10 思考模式(无工具) | 48.50 思考模式(工具) |
MMLU Pro 综合评估 | 85.20 思考模式(无工具) | -- | 78.50 思考模式(无工具) | 86.10 思考模式(无工具) |
LiveCodeBench 编程与软件工程 | 80.00 思考模式(无工具) | -- | 85.00 思考模式(无工具) | 80.70 思考模式(工具) |
τ²-Bench Agent能力评测 | 76.90 思考模式(工具) | 89.70 thinking + 使用工具 | -- | 79.00 思考模式(工具) |
AIME 2026 数学推理 | 89.20 思考模式(无工具) | 92.70 thinking | 92.50 思考模式(无工具) | -- |
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens
| 模型 | 供应商 | 标准输入 | 标准输出 | 标准价适用于 |
|---|---|---|---|---|
GLM-5 | 智谱AI | $1 / 1M tokens | $3.2 / 1M tokens | — |
Kimi K2.5 | — | 0.6 美元/100 万tokens | 3 美元/100 万tokens | — |
追踪 Gemma 4 31B 系列模型的迭代轨迹,直观展示代际性能变化
垂直视图
3 项可对比评测得分汇总
| 评测项 | Gemma 4 31B(首位) | Gemma 3 - 27B (IT) | Gemma2-27B |
|---|---|---|---|
GPQA Diamond 综合评估 | 84.30 思考模式(无工具) | 42.40 常规模式(无工具) | -- |
MMLU Pro 综合评估 | 85.20 思考模式(无工具) | 67.50 常规模式(无工具) | 56.54 normal |
LiveCodeBench 编程与软件工程 | 80.00 思考模式(无工具) | 29.70 常规模式(无工具) | -- |
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。
上半部分展示多评测全景,下半部分展示单个评测下同代不同模式(虚线连接)的结果。
提示:点击任意分数单元格可切换下方关系图。
| 评测项 | Gemma2-27B2024/5/14 | Gemma 3 - 27B (IT)2025/3/12 | Gemma 4 31B2026/4/2 |
|---|---|---|---|
当前查看:GPQA Diamond · 综合评估