Gemma 4 31B 评测深度分析

基于 DataLearner 收录数据,对 Gemma 4 31B 在 MMLU Pro、GPQA Diamond、AIME 2026、LiveCodeBench 等评测中的表现进行深度分析,并与 GLM-5、Kimi K2.5、Qwen3.5-27B 横向对比。

Gemma 4 31B 是 2026 年上半年参数效率最高的开源稠密推理模型之一——用 310 亿全激活参数,在数学和综合知识类评测上基本追平同级别最强开源竞品,但在复杂知识推理(HLE)和 Agent 任务上仍有明显差距,选择时需根据实际用途判断。


从 Gemma 3 到 Gemma 4:这次是真代际跳跃

对比同系列上代模型 Gemma 3 27B,Gemma 4 31B 的提升幅度远超正常迭代节奏,不像是渐进优化,更像是更换了核心技术路线。

GPQA Diamond(博士级专业知识推理)从 42.40 跳至 84.30,涨幅超过 40 个百分点;LiveCodeBench(实时编程能力)从 29.70 升至 80.00,几乎翻了近三倍;MMLU Pro(系统性多学科知识)从 67.50 升至 85.20。这种幅度在同一系列的相邻两代之间非常罕见。

Google DeepMind 官方说明该模型基于 Gemini 3 同源技术构建,同时默认开启思维链推理(thinking mode),这两点共同解释了代际跳跃的来源——本质上,Gemma 4 31B 引入的是一个新的能力底座,而不是在旧基础上做参数扩充。

值得注意的是,页面上 Gemma 4 31B 的所有评测分数,均来自思考模式(thinking mode 开启),而 Gemma 3 27B 的数据是常规模式。这意味着两代的对比并非完全对等的推理架构对比,实际差距的一部分由思维链推理贡献。这是读数据时需要保持清醒的地方。


竞品横向:在哪里赢、在哪里输

目前 DataLearner 收录了 Gemma 4 31B 与 GLM-5、Kimi K2.5、Qwen3.5-27B 在 6 项评测上的可比数据,以下是逐项判断。

数学推理(AIME 2026):接近同级最强,但尚未第一

Gemma 4 31B 在 AIME 2026 上得分 89.20,在当前 DataLearner 收录的 10 个有数据的模型中排名第 9,是极少数能在这个评测上进入 90 分附近的开源模型。对比来看,GLM-5 为 92.70,Kimi K2.5 为 92.50,均高于 Gemma 4 31B。数学推理上,Gemma 4 31B 是强竞争者,但不是第一。

综合知识与推理(MMLU Pro):与 Qwen3.5-27B 基本持平

Gemma 4 31B 的 MMLU Pro 为 85.20,Qwen3.5-27B 为 86.10,差距不到 1 个百分点,在误差范围内可视为相当。Kimi K2.5 在这项上为 78.50,略低一个台阶。MMLU Pro 这一项,Gemma 4 31B 表现稳健。

博士级推理(GPQA Diamond):三家竞品均略高

Gemma 4 31B 得分 84.30,GLM-5 86.00、Kimi K2.5 87.60、Qwen3.5-27B 85.50,三家对比模型均高于 Gemma 4 31B,差距在 1.2 到 3.3 个百分点之间。这个差距实际,但不构成压倒性劣势。

编程(LiveCodeBench):落后 Kimi K2.5 约 5 分

Gemma 4 31B 得分 80.00,Kimi K2.5 为 85.00,Qwen3.5-27B 为 80.70。编程能力上,Kimi K2.5 有明显优势;Gemma 4 31B 与 Qwen3.5-27B 基本同档。

复杂知识推理(HLE):这是最大的短板

HLE(Humanity's Last Exam)是当前区分顶级模型最有效的评测之一。Gemma 4 31B 在无工具条件下得分仅 19.50,加上工具和联网后提升到 26.50,但 GLM-5 在 thinking+工具模式下达到 50.40,Qwen3.5-27B 带工具为 48.50

这个差距相当大,接近翻倍。HLE 考察的是极端复杂问题的推理深度,这里的差距说明 Gemma 4 31B 在超出常规知识边界的问题上,推理链的有效深度不及 GLM-5 和 Qwen3.5-27B。

Agent 能力(τ²-Bench):中等偏上,但 GLM-5 遥遥领先

τ²-Bench 是衡量模型在多轮工具调用和任务完成上的综合 Agent 能力。Gemma 4 31B 得分 76.90,Qwen3.5-27B 为 79.00,而 GLM-5 达到 89.70——后者几乎高出一个量级,差距显著。如果 Agent 工作流是核心用途,GLM-5 当前是更具竞争力的选择。


综合判断:哪些场景值得用 Gemma 4 31B

适合的场景:

  • 本地/私有部署推理任务:31B 全激活参数在 bfloat16 下可跑在单张 80GB H100,量化后进一步降低门槛,Apache 2.0 允许商用,这是其最清晰的差异化优势——GLM-5 和 Kimi K2.5 目前没有可本地部署的开源权重。
  • 数学和编程辅助:AIME 2026 接近 90、LiveCodeBench 达到 80,对于代码生成和数学推理场景,Gemma 4 31B 的能力已足够实用。
  • 多模态输入场景:原生支持图像和视频输入,这在同参数量的开源模型中属于少数,对需要处理非纯文本内容的应用有实际价值。
  • 多语言需求(非中文为主):支持 140 多种语言,在多语言应用场景中覆盖范围广。注意该模型在 DataLearner 页面标注"不支持中文",中文为主的场景需谨慎评估实际表现。

不适合的场景:

  • 复杂知识边界推理:HLE 差距大,对需要处理超出训练知识边界的高难度推理场景,当前数据显示 GLM-5 和 Qwen3.5-27B 更有竞争力。
  • 复杂 Agent 工作流:τ²-Bench 差距明显,GLM-5 当前是这一方向更强的选择。

参数效率:这才是 Gemma 4 31B 的核心叙事

Google 官方在发布时强调"以 1/30 的参数量媲美 600B 级别模型",DataLearner 的评测排名数据在一定程度上支持这一说法——MMLU Pro 全榜排名 16/116,LiveCodeBench 21/109,在 31B 参数量级内均属顶尖位置。

但这里有一个结构性背景需要说明:Gemma 4 31B 的这些成绩来自思考模式(thinking mode 默认开启),而部分竞品的常规模式分数会更低。思维链推理本身有推理时延和 token 消耗的成本,在实际部署时,推理速度和单次对话 token 成本与常规模式有差异,应用时需纳入考量。


数据说明

本页评测数据均来自 DataLearner 持续收录的公开基准测试结果,数据来源链接见页面底部。模型对比中各方所用的推理模式(思考/常规/联网)已在表格内标注,不同模式间的分数不建议直接等量对比。随着更多评测数据入库,排名和对比结论可能随时更新。

评测结果

Gemma 4 31B

评测结果

思考模式
工具使用
联网能力

综合评估

共 5 项评测
评测名称 / 模式
得分
排名/总数
MMLU Pro
思考模式
85.20
23 / 126
GPQA Diamond
思考模式
84.30
54 / 179
LiveBench
常规模式
61.62
62 / 115
HLE
思考模式
19.50
109 / 161
HLE
思考模式工具联网
26.50
87 / 161

编程与软件工程

共 1 项评测
评测名称 / 模式
得分
排名/总数
LiveCodeBench
思考模式
80
30 / 120

Agent能力评测

共 1 项评测
评测名称 / 模式
得分
排名/总数
τ²-Bench
思考模式工具
76.90
19 / 40

数学推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
AIME 2026
思考模式
89.20
14 / 15

竞品对比

Gemma 4 31B 与同类主流模型的评测得分对比

评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;百分制评测使用原始高度,超出 0-100 的评测按该评测内相对比例缩放,标签仍保留原始分数。

7 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。

评测项Gemma 4 31B当前GLM-5Kimi K2.5Qwen3.5-27B
GPQA Diamond
综合评估
84.30开启思考
86.00开启思考
--
85.50开启思考
HLE
综合评估
26.50开启思考 | 工具
50.40开启思考 | 工具
50.20开启思考 | 工具
48.50开启思考 | 工具
LiveBench
综合评估
61.62常规模式
68.85常规模式
69.07开启思考
--
MMLU Pro
综合评估
85.20开启思考
--
--
86.10开启思考
LiveCodeBench
编程与软件工程
80.00开启思考
--
--
80.70开启思考 | 工具
τ²-Bench
Agent能力评测
76.90开启思考 | 工具
89.70开启思考 | 工具
--
79.00开启思考 | 工具
AIME 2026
数学推理
89.20开启思考
92.70开启思考
--
--

Gemma 4 31B 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens

模型供应商标准输入标准输出标准价适用于
GLM-5
智谱AI$1 / 1M tokens$3.2 / 1M tokens

历代版本对比

Gemma 4 31B 系列各版本的评测成绩纵向对比

评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;百分制评测使用原始高度,超出 0-100 的评测按该评测内相对比例缩放,标签仍保留原始分数。

1 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。· 点击任意行可切换下方趋势图。

评测项Gemma 4 31B当前Gemma2-27B
MMLU Pro
综合评估
85.20开启思考
56.54常规模式

单评测历史趋势图

当前查看:MMLU Pro · 综合评估

选择评测
常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间,纵轴为分数;同一模式会用实线串起版本变化,同代不同模式继续用虚线辅助对齐。

Gemma 4 31B 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。

这些模型暂未提供可比较的标准文本价格。

数据来源