Gemma 4 31B Benchmark Analysis

基于 DataLearner 收录数据,对 Gemma 4 31B 在 MMLU Pro、GPQA Diamond、AIME 2026、LiveCodeBench 等评测中的表现进行深度分析,并与 GLM-5、Kimi K2.5、Qwen3.5-27B 横向对比。

Gemma 4 31B 是 2026 年上半年参数效率最高的开源稠密推理模型之一——用 310 亿全激活参数,在数学和综合知识类评测上基本追平同级别最强开源竞品,但在复杂知识推理(HLE)和 Agent 任务上仍有明显差距,选择时需根据实际用途判断。


从 Gemma 3 到 Gemma 4:这次是真代际跳跃

对比同系列上代模型 Gemma 3 27B,Gemma 4 31B 的提升幅度远超正常迭代节奏,不像是渐进优化,更像是更换了核心技术路线。

GPQA Diamond(博士级专业知识推理)从 42.40 跳至 84.30,涨幅超过 40 个百分点;LiveCodeBench(实时编程能力)从 29.70 升至 80.00,几乎翻了近三倍;MMLU Pro(系统性多学科知识)从 67.50 升至 85.20。这种幅度在同一系列的相邻两代之间非常罕见。

Google DeepMind 官方说明该模型基于 Gemini 3 同源技术构建,同时默认开启思维链推理(thinking mode),这两点共同解释了代际跳跃的来源——本质上,Gemma 4 31B 引入的是一个新的能力底座,而不是在旧基础上做参数扩充。

值得注意的是,页面上 Gemma 4 31B 的所有评测分数,均来自思考模式(thinking mode 开启),而 Gemma 3 27B 的数据是常规模式。这意味着两代的对比并非完全对等的推理架构对比,实际差距的一部分由思维链推理贡献。这是读数据时需要保持清醒的地方。


竞品横向:在哪里赢、在哪里输

目前 DataLearner 收录了 Gemma 4 31B 与 GLM-5、Kimi K2.5、Qwen3.5-27B 在 6 项评测上的可比数据,以下是逐项判断。

数学推理(AIME 2026):接近同级最强,但尚未第一

Gemma 4 31B 在 AIME 2026 上得分 89.20,在当前 DataLearner 收录的 10 个有数据的模型中排名第 9,是极少数能在这个评测上进入 90 分附近的开源模型。对比来看,GLM-5 为 92.70,Kimi K2.5 为 92.50,均高于 Gemma 4 31B。数学推理上,Gemma 4 31B 是强竞争者,但不是第一。

综合知识与推理(MMLU Pro):与 Qwen3.5-27B 基本持平

Gemma 4 31B 的 MMLU Pro 为 85.20,Qwen3.5-27B 为 86.10,差距不到 1 个百分点,在误差范围内可视为相当。Kimi K2.5 在这项上为 78.50,略低一个台阶。MMLU Pro 这一项,Gemma 4 31B 表现稳健。

博士级推理(GPQA Diamond):三家竞品均略高

Gemma 4 31B 得分 84.30,GLM-5 86.00、Kimi K2.5 87.60、Qwen3.5-27B 85.50,三家对比模型均高于 Gemma 4 31B,差距在 1.2 到 3.3 个百分点之间。这个差距实际,但不构成压倒性劣势。

编程(LiveCodeBench):落后 Kimi K2.5 约 5 分

Gemma 4 31B 得分 80.00,Kimi K2.5 为 85.00,Qwen3.5-27B 为 80.70。编程能力上,Kimi K2.5 有明显优势;Gemma 4 31B 与 Qwen3.5-27B 基本同档。

复杂知识推理(HLE):这是最大的短板

HLE(Humanity's Last Exam)是当前区分顶级模型最有效的评测之一。Gemma 4 31B 在无工具条件下得分仅 19.50,加上工具和联网后提升到 26.50,但 GLM-5 在 thinking+工具模式下达到 50.40,Qwen3.5-27B 带工具为 48.50

这个差距相当大,接近翻倍。HLE 考察的是极端复杂问题的推理深度,这里的差距说明 Gemma 4 31B 在超出常规知识边界的问题上,推理链的有效深度不及 GLM-5 和 Qwen3.5-27B。

Agent 能力(τ²-Bench):中等偏上,但 GLM-5 遥遥领先

τ²-Bench 是衡量模型在多轮工具调用和任务完成上的综合 Agent 能力。Gemma 4 31B 得分 76.90,Qwen3.5-27B 为 79.00,而 GLM-5 达到 89.70——后者几乎高出一个量级,差距显著。如果 Agent 工作流是核心用途,GLM-5 当前是更具竞争力的选择。


综合判断:哪些场景值得用 Gemma 4 31B

适合的场景:

  • 本地/私有部署推理任务:31B 全激活参数在 bfloat16 下可跑在单张 80GB H100,量化后进一步降低门槛,Apache 2.0 允许商用,这是其最清晰的差异化优势——GLM-5 和 Kimi K2.5 目前没有可本地部署的开源权重。
  • 数学和编程辅助:AIME 2026 接近 90、LiveCodeBench 达到 80,对于代码生成和数学推理场景,Gemma 4 31B 的能力已足够实用。
  • 多模态输入场景:原生支持图像和视频输入,这在同参数量的开源模型中属于少数,对需要处理非纯文本内容的应用有实际价值。
  • 多语言需求(非中文为主):支持 140 多种语言,在多语言应用场景中覆盖范围广。注意该模型在 DataLearner 页面标注"不支持中文",中文为主的场景需谨慎评估实际表现。

不适合的场景:

  • 复杂知识边界推理:HLE 差距大,对需要处理超出训练知识边界的高难度推理场景,当前数据显示 GLM-5 和 Qwen3.5-27B 更有竞争力。
  • 复杂 Agent 工作流:τ²-Bench 差距明显,GLM-5 当前是这一方向更强的选择。

参数效率:这才是 Gemma 4 31B 的核心叙事

Google 官方在发布时强调"以 1/30 的参数量媲美 600B 级别模型",DataLearner 的评测排名数据在一定程度上支持这一说法——MMLU Pro 全榜排名 16/116,LiveCodeBench 21/109,在 31B 参数量级内均属顶尖位置。

但这里有一个结构性背景需要说明:Gemma 4 31B 的这些成绩来自思考模式(thinking mode 默认开启),而部分竞品的常规模式分数会更低。思维链推理本身有推理时延和 token 消耗的成本,在实际部署时,推理速度和单次对话 token 成本与常规模式有差异,应用时需纳入考量。


数据说明

本页评测数据均来自 DataLearner 持续收录的公开基准测试结果,数据来源链接见页面底部。模型对比中各方所用的推理模式(思考/常规/联网)已在表格内标注,不同模式间的分数不建议直接等量对比。随着更多评测数据入库,排名和对比结论可能随时更新。

Benchmark Results

Gemma 4 31B

Benchmark Results

Thinking
Tool usage
Internet

General Knowledge

5 evaluations
Benchmark / mode
Score
Rank/total
MMLU Pro
Thinking Mode
85.20
23 / 126
GPQA Diamond
Thinking Mode
84.30
54 / 179
LiveBench
Standard Mode
61.62
62 / 115
HLE
Thinking Mode
19.50
109 / 161
HLE
Thinking ModeToolsInternet
26.50
87 / 161

Coding and Software Engineer

1 evaluations
Benchmark / mode
Score
Rank/total
LiveCodeBench
Thinking Mode
80
30 / 120

Agent Level Benchmark

1 evaluations
Benchmark / mode
Score
Rank/total
τ²-Bench
Thinking ModeTools
76.90
19 / 40

Math and Reasoning

1 evaluations
Benchmark / mode
Score
Rank/total
AIME 2026
Thinking Mode
89.20
14 / 15

Competitor Comparison

Benchmark scores for Gemma 4 31B compared against top models in its class

Benchmark categories:
The chart shows each model’s highest score per benchmark within the current filter. Out-of-100 benchmarks use raw heights; out-of-range benchmarks are scaled within that benchmark while labels keep the original scores.

7 benchmarks with comparable scores. Each model shows its best score; mode label is displayed below.

BenchmarkGemma 4 31BCurrentGLM-5Kimi K2.5Qwen3.5-27B
GPQA Diamond
综合评估
84.30Thinking Enabled
86.00Thinking Enabled
--
85.50Thinking Enabled
HLE
综合评估
26.50Thinking Enabled | Tools
50.40Thinking Enabled | Tools
50.20Thinking Enabled | Tools
48.50Thinking Enabled | Tools
LiveBench
综合评估
61.62Standard Mode
68.85Standard Mode
69.07Thinking Enabled
--
MMLU Pro
综合评估
85.20Thinking Enabled
--
--
86.10Thinking Enabled
LiveCodeBench
编程与软件工程
80.00Thinking Enabled
--
--
80.70Thinking Enabled | Tools
τ²-Bench
Agent能力评测
76.90Thinking Enabled | Tools
89.70Thinking Enabled | Tools
--
79.00Thinking Enabled | Tools
AIME 2026
数学推理
89.20Thinking Enabled
92.70Thinking Enabled
--
--

Standard API Pricing: Gemma 4 31B vs. Peer Models

Shows standard text input and output pricing side by side for each model. If extended-context pricing exists, the chart keeps the base rate and explains the threshold below.

Source: DataLearnerAI. Standard text prices shown here use the default supplier. · USD / 1M tokens

ModelSupplierStandard inputStandard outputBase price applies to
GLM-5
智谱AI$1 / 1M tokens$3.2 / 1M tokens

Version History

How each version of the Gemma 4 31B series stacks up on benchmark tests

Benchmark categories:
The chart shows each model’s highest score per benchmark within the current filter. Out-of-100 benchmarks use raw heights; out-of-range benchmarks are scaled within that benchmark while labels keep the original scores.

1 benchmarks with comparable scores. Each model shows its best score; mode label is displayed below.· Click a row to view its trend chart.

BenchmarkGemma 4 31BCurrentGemma2-27B
MMLU Pro
综合评估
85.20Thinking Enabled
56.54Standard Mode

Single-Benchmark Version Trend

Viewing: MMLU Pro · 综合评估

Benchmark
NormalNormal + ToolsThinkingThinking + ToolsDeepDeep + Tools

X-axis shows model and release date, Y-axis shows score; solid lines connect the same mode across versions, while dotted guides align modes within the same generation.

Standard API Pricing Across the Gemma 4 31B Series

Shows standard text input and output pricing side by side for each model. If extended-context pricing exists, the chart keeps the base rate and explains the threshold below.

Source: DataLearnerAI. Standard text prices shown here use the default supplier.

Comparable standard text pricing is not available for these models.

Sources