Gemma 4 31BvsKimi K2.5

在 5 个共同 benchmark 中,Kimi K2.5 整体领先:Gemma 4 31B 领先 1 项,Kimi K2.5 领先 4 项,持平 0 项,平均分差 -5.72。

DeepMind
Gemma 4 31B

DeepMind · 2026-04-02 · 聊天大模型

Moonshot AI
Kimi K2.5

Moonshot AI · 2026-01-27 · 多模态大模型

Gemma 4 31B1 (20%)(80%)4 Kimi K2.5

评测分数

按能力类目分组,每组内按分差大小排列;共 5 项。

General Knowledge

Kimi K2.5 领先 2/3
评测项Gemma 4 31BKimi K2.5分差
HLE26.5083 / 157Thinking (With Tools + Internet)50.2020 / 157Thinking (With Tools)-23.70
MMLU Pro85.2023 / 126Thinking (No Tools)78.5066 / 126Thinking (No Tools)+6.70
GPQA Diamond84.3053 / 178Thinking (No Tools)87.6034 / 178Thinking (No Tools)-3.30

Coding and Software Engineer

Kimi K2.5 领先 1/1
评测项Gemma 4 31BKimi K2.5分差
LiveCodeBench8030 / 120Thinking (No Tools)8516 / 120Thinking (No Tools)-5

Math and Reasoning

Kimi K2.5 领先 1/1
评测项Gemma 4 31BKimi K2.5分差
AIME 202689.2013 / 14Thinking (No Tools)92.5010 / 14Thinking (No Tools)-3.30

规格对比

字段Gemma 4 31BKimi K2.5
发布机构DeepMindMoonshot AI
发布时间2026-04-022026-01-27
模型类型聊天大模型多模态大模型
架构稠密模型MoE 架构
参数规模31亿1万亿
上下文长度256K256K
最大输出32K16K

小结

  • Kimi K2.5在以下类目领先:General Knowledge (2/3)、Coding and Software Engineer (1/1)、Math and Reasoning (1/1)

5 个共同 benchmark 上,Kimi K2.5 平均高出 5.72 分。

单项差距最大的 benchmark:HLE — Gemma 4 31B 26.50,Kimi K2.5 50.20(分差 -23.70)。

本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。