Gemma 4 31BvsKimi K2.5

在 6 个共同 benchmark 中，Kimi K2.5 整体领先：Gemma 4 31B 领先 1 项，Kimi K2.5 领先 5 项，持平 0 项，平均分差 -6.01。

DeepMind · 2026-04-02 · 聊天大模型

Moonshot AI · 2026-01-27 · 多模态大模型

Gemma 4 31B1 项(17%)(83%)5 项Kimi K2.5

评测分数

按能力类目分组，每组内按分差大小排列；共 6 项。

Kimi K2.5 领先 3/4

评测项	Gemma 4 31B	Kimi K2.5	分差
HLE	26.5097 / 172Thinking (With Tools + Internet)	50.2027 / 172Thinking (With Tools)	-23.70
LiveBench	61.6262 / 115Normal (No Tools)	69.0742 / 115Thinking (No Tools)	-7.45
MMLU Pro	85.2024 / 132Thinking (No Tools)	78.5069 / 132Thinking (No Tools)	+6.70
GPQA Diamond	84.3058 / 187Thinking (No Tools)	87.6037 / 187Thinking (No Tools)	-3.30

Kimi K2.5 领先 1/1

评测项	Gemma 4 31B	Kimi K2.5	分差
LiveCodeBench	8030 / 123Thinking (No Tools)	8516 / 123Thinking (No Tools)	-5

Kimi K2.5 领先 1/1

评测项	Gemma 4 31B	Kimi K2.5	分差
AIME 2026	89.2015 / 18Thinking (No Tools)	92.5012 / 18Thinking (No Tools)	-3.30

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

部分模型公开价格不完整，缺失字段按"暂无公开价格"展示。

Kimi K2.5在以下类目领先:General Knowledge (3/4)、Coding and Software Engineer (1/1)、Math and Reasoning (1/1)

6 个共同 benchmark 上，Kimi K2.5 平均高出 6.01 分。

单项差距最大的 benchmark：HLE — Gemma 4 31B 26.50，Kimi K2.5 50.20（分差 -23.70）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。