Gemma 4 31BvsQwen3.5-27B

在 5 个共同 benchmark 中，Qwen3.5-27B 整体领先：Gemma 4 31B 领先 0 项，Qwen3.5-27B 领先 5 项，持平 0 项，平均分差 -5.38。

DeepMind · 2026-04-02 · 聊天大模型

阿里巴巴 · 2026-02-25 · 推理大模型

Gemma 4 31B0 项(0%)(100%)5 项Qwen3.5-27B

评测分数

按能力类目分组，每组内按分差大小排列；共 5 项。

Qwen3.5-27B 领先 3/3

评测项	Gemma 4 31B	Qwen3.5-27B	分差
HLE	26.5097 / 172Thinking (With Tools + Internet)	48.5033 / 172Thinking (With Tools)	-22
GPQA Diamond	84.3058 / 187Thinking (No Tools)	85.5052 / 187Thinking (No Tools)	-1.20
MMLU Pro	85.2024 / 132Thinking (No Tools)	86.1019 / 132Thinking (No Tools)	-0.90

Qwen3.5-27B 领先 1/1

评测项	Gemma 4 31B	Qwen3.5-27B	分差
τ²-Bench	76.9020 / 43Thinking (With Tools)	7917 / 43Thinking (With Tools)	-2.10

Qwen3.5-27B 领先 1/1

评测项	Gemma 4 31B	Qwen3.5-27B	分差
LiveCodeBench	8030 / 123Thinking (No Tools)	80.7027 / 123Thinking (With Tools)	-0.70

Qwen3.5-27B在以下类目领先:General Knowledge (3/3)、Agent Level Benchmark (1/1)、Coding and Software Engineer (1/1)

5 个共同 benchmark 上，Qwen3.5-27B 平均高出 5.38 分。

单项差距最大的 benchmark：HLE — Gemma 4 31B 26.50，Qwen3.5-27B 48.50（分差 -22）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。