Benchmark Results

Gemma 4 31B

Benchmark Results

综合评估

4 evaluations

Benchmark / mode

Score

Rank/total

MMLU Pro

Thinking Mode

85.20

21 / 124

GPQA Diamond

Thinking Mode

84.30

50 / 175

HLE

Thinking Mode

19.50

97 / 149

HLE

Thinking ModeToolsInternet

26.50

75 / 149

编程与软件工程

1 evaluations

Benchmark / mode

Score

Rank/total

LiveCodeBench

Thinking Mode

28 / 118

Agent能力评测

1 evaluations

Benchmark / mode

Score

Rank/total

τ²-Bench

Thinking ModeTools

76.90

19 / 40

数学推理

1 evaluations

Benchmark / mode

Score

Rank/total

AIME 2026

Thinking Mode

89.20

13 / 14

Compare with other models

Competitor Comparison

Benchmark scores for Gemma 4 31B compared against top models in its class

Gemma 4 31BGLM-5 Kimi K2.5 Qwen3.5-27B

Benchmark categories:

The chart shows each model’s highest score per benchmark within the current filter. See the table below for per-mode details.

6 benchmarks with comparable scores. Each model shows its best score; mode label is displayed below.

Benchmark	Gemma 4 31BCurrent	GLM-5	Kimi K2.5	Qwen3.5-27B
GPQA Diamond 综合评估	84.30Thinking Enabled	86.00Thinking Enabled	87.60Thinking Enabled	85.50Thinking Enabled
HLE 综合评估	26.50Thinking Enabled ｜ Tools	50.40Thinking Enabled ｜ Tools	50.20Thinking Enabled ｜ Tools	48.50Thinking Enabled ｜ Tools
MMLU Pro 综合评估	85.20Thinking Enabled	--	78.50Thinking Enabled	86.10Thinking Enabled
LiveCodeBench 编程与软件工程	80.00Thinking Enabled	--	85.00Thinking Enabled	80.70Thinking Enabled ｜ Tools
τ²-Bench Agent能力评测	76.90Thinking Enabled ｜ Tools	89.70Thinking Enabled ｜ Tools	--	79.00Thinking Enabled ｜ Tools
AIME 2026 数学推理	89.20Thinking Enabled	92.70Thinking Enabled	92.50Thinking Enabled	--

Standard API Pricing: Gemma 4 31B vs. Peer Models

Shows standard text input and output pricing side by side for each model. If extended-context pricing exists, the chart keeps the base rate and explains the threshold below.

Source: DataLearnerAI. Standard text prices shown here use the default supplier. · USD / 1M tokens

Model	Supplier	Standard input	Standard output	Base price applies to
GLM-5	智谱AI	$1 / 1M tokens	$3.2 / 1M tokens	—
Kimi K2.5	—	0.6 美元/100 万tokens	3 美元/100 万tokens	—

Version History

How each version of the Gemma 4 31B series stacks up on benchmark tests

Gemma 4 31BGemma 3 - 27B (IT)Gemma2-27B

Benchmark categories:

The chart shows each model’s highest score per benchmark within the current filter. See the table below for per-mode details.

3 benchmarks with comparable scores. Each model shows its best score; mode label is displayed below.· Click a row to view its trend chart.

Benchmark	Gemma 4 31BCurrent	Gemma 3 - 27B (IT)	Gemma2-27B
GPQA Diamond 综合评估	84.30Thinking Enabled	42.40Standard Mode	--
MMLU Pro 综合评估	85.20Thinking Enabled	67.50Standard Mode	56.54Standard Mode
LiveCodeBench 编程与软件工程	80.00Thinking Enabled	29.70Standard Mode	--

Single-Benchmark Version Trend

Viewing: GPQA Diamond · 综合评估

Benchmark

NormalNormal + ToolsThinkingThinking + ToolsDeepDeep + Tools

X-axis shows model and release date, Y-axis shows score; solid lines connect the same mode across versions, while dotted guides align modes within the same generation.

Standard API Pricing Across the Gemma 4 31B Series

Shows standard text input and output pricing side by side for each model. If extended-context pricing exists, the chart keeps the base rate and explains the threshold below.

Source: DataLearnerAI. Standard text prices shown here use the default supplier.

Comparable standard text pricing is not available for these models.

Gemma 4 31B 是 2026 年上半年参数效率最高的开源稠密推理模型之一——用 310 亿全激活参数，在数学和综合知识类评测上基本追平同级别最强开源竞品，但在复杂知识推理（HLE）和 Agent 任务上仍有明显差距，选择时需根据实际用途判断。

从 Gemma 3 到 Gemma 4：这次是真代际跳跃

对比同系列上代模型 Gemma 3 27B，Gemma 4 31B 的提升幅度远超正常迭代节奏，不像是渐进优化，更像是更换了核心技术路线。

GPQA Diamond（博士级专业知识推理）从 42.40 跳至 84.30，涨幅超过 40 个百分点；LiveCodeBench（实时编程能力）从 29.70 升至 80.00，几乎翻了近三倍；MMLU Pro（系统性多学科知识）从 67.50 升至 85.20。这种幅度在同一系列的相邻两代之间非常罕见。

Google DeepMind 官方说明该模型基于 Gemini 3 同源技术构建，同时默认开启思维链推理（thinking mode），这两点共同解释了代际跳跃的来源——本质上，Gemma 4 31B 引入的是一个新的能力底座，而不是在旧基础上做参数扩充。

值得注意的是，页面上 Gemma 4 31B 的所有评测分数，均来自思考模式（thinking mode 开启），而 Gemma 3 27B 的数据是常规模式。这意味着两代的对比并非完全对等的推理架构对比，实际差距的一部分由思维链推理贡献。这是读数据时需要保持清醒的地方。

竞品横向：在哪里赢、在哪里输

目前 DataLearner 收录了 Gemma 4 31B 与 GLM-5、Kimi K2.5、Qwen3.5-27B 在 6 项评测上的可比数据，以下是逐项判断。

数学推理（AIME 2026）：接近同级最强，但尚未第一

Gemma 4 31B 在 AIME 2026 上得分 89.20，在当前 DataLearner 收录的 10 个有数据的模型中排名第 9，是极少数能在这个评测上进入 90 分附近的开源模型。对比来看，GLM-5 为 92.70，Kimi K2.5 为 92.50，均高于 Gemma 4 31B。数学推理上，Gemma 4 31B 是强竞争者，但不是第一。

综合知识与推理（MMLU Pro）：与 Qwen3.5-27B 基本持平

Gemma 4 31B 的 MMLU Pro 为 85.20，Qwen3.5-27B 为 86.10，差距不到 1 个百分点，在误差范围内可视为相当。Kimi K2.5 在这项上为 78.50，略低一个台阶。MMLU Pro 这一项，Gemma 4 31B 表现稳健。

博士级推理（GPQA Diamond）：三家竞品均略高

Gemma 4 31B 得分 84.30，GLM-5 86.00、Kimi K2.5 87.60、Qwen3.5-27B 85.50，三家对比模型均高于 Gemma 4 31B，差距在 1.2 到 3.3 个百分点之间。这个差距实际，但不构成压倒性劣势。

编程（LiveCodeBench）：落后 Kimi K2.5 约 5 分

Gemma 4 31B 得分 80.00，Kimi K2.5 为 85.00，Qwen3.5-27B 为 80.70。编程能力上，Kimi K2.5 有明显优势；Gemma 4 31B 与 Qwen3.5-27B 基本同档。

复杂知识推理（HLE）：这是最大的短板

HLE（Humanity's Last Exam）是当前区分顶级模型最有效的评测之一。Gemma 4 31B 在无工具条件下得分仅 19.50，加上工具和联网后提升到 26.50，但 GLM-5 在 thinking+工具模式下达到 50.40，Qwen3.5-27B 带工具为 48.50。

这个差距相当大，接近翻倍。HLE 考察的是极端复杂问题的推理深度，这里的差距说明 Gemma 4 31B 在超出常规知识边界的问题上，推理链的有效深度不及 GLM-5 和 Qwen3.5-27B。

Agent 能力（τ²-Bench）：中等偏上，但 GLM-5 遥遥领先

τ²-Bench 是衡量模型在多轮工具调用和任务完成上的综合 Agent 能力。Gemma 4 31B 得分 76.90，Qwen3.5-27B 为 79.00，而 GLM-5 达到 89.70——后者几乎高出一个量级，差距显著。如果 Agent 工作流是核心用途，GLM-5 当前是更具竞争力的选择。

综合判断：哪些场景值得用 Gemma 4 31B

适合的场景：

本地/私有部署推理任务：31B 全激活参数在 bfloat16 下可跑在单张 80GB H100，量化后进一步降低门槛，Apache 2.0 允许商用，这是其最清晰的差异化优势——GLM-5 和 Kimi K2.5 目前没有可本地部署的开源权重。
数学和编程辅助：AIME 2026 接近 90、LiveCodeBench 达到 80，对于代码生成和数学推理场景，Gemma 4 31B 的能力已足够实用。
多模态输入场景：原生支持图像和视频输入，这在同参数量的开源模型中属于少数，对需要处理非纯文本内容的应用有实际价值。
多语言需求（非中文为主）：支持 140 多种语言，在多语言应用场景中覆盖范围广。注意该模型在 DataLearner 页面标注"不支持中文"，中文为主的场景需谨慎评估实际表现。

不适合的场景：

复杂知识边界推理：HLE 差距大，对需要处理超出训练知识边界的高难度推理场景，当前数据显示 GLM-5 和 Qwen3.5-27B 更有竞争力。
复杂 Agent 工作流：τ²-Bench 差距明显，GLM-5 当前是这一方向更强的选择。

参数效率：这才是 Gemma 4 31B 的核心叙事

Google 官方在发布时强调"以 1/30 的参数量媲美 600B 级别模型"，DataLearner 的评测排名数据在一定程度上支持这一说法——MMLU Pro 全榜排名 16/116，LiveCodeBench 21/109，在 31B 参数量级内均属顶尖位置。

但这里有一个结构性背景需要说明：Gemma 4 31B 的这些成绩来自思考模式（thinking mode 默认开启），而部分竞品的常规模式分数会更低。思维链推理本身有推理时延和 token 消耗的成本，在实际部署时，推理速度和单次对话 token 成本与常规模式有差异，应用时需纳入考量。

数据说明

本页评测数据均来自 DataLearner 持续收录的公开基准测试结果，数据来源链接见页面底部。模型对比中各方所用的推理模式（思考/常规/联网）已在表格内标注，不同模式间的分数不建议直接等量对比。随着更多评测数据入库，排名和对比结论可能随时更新。

Benchmark Results

Benchmark Results

综合评估

编程与软件工程

Agent能力评测

数学推理

Competitor Comparison

Standard API Pricing: Gemma 4 31B vs. Peer Models

Version History

Single-Benchmark Version Trend

Standard API Pricing Across the Gemma 4 31B Series

Gemma 4 31B Benchmark Analysis

从 Gemma 3 到 Gemma 4：这次是真代际跳跃

竞品横向：在哪里赢、在哪里输

综合判断：哪些场景值得用 Gemma 4 31B

参数效率：这才是 Gemma 4 31B 的核心叙事

数据说明

Sources