Gemma 4 31BvsQwen3.5-27B

在 5 个共同 benchmark 中,Qwen3.5-27B 整体领先:Gemma 4 31B 领先 0 项,Qwen3.5-27B 领先 5 项,持平 0 项,平均分差 -5.38。

DeepMind
Gemma 4 31B

DeepMind · 2026-04-02 · 聊天大模型

阿里巴巴
Qwen3.5-27B

阿里巴巴 · 2026-02-25 · 推理大模型

Gemma 4 31B0 (0%)(100%)5 Qwen3.5-27B

评测分数

按能力类目分组,每组内按分差大小排列;共 5 项。

General Knowledge

Qwen3.5-27B 领先 3/3
评测项Gemma 4 31BQwen3.5-27B分差
HLE26.5083 / 157Thinking (With Tools + Internet)48.5026 / 157Thinking (With Tools)-22
GPQA Diamond84.3053 / 178Thinking (No Tools)85.5047 / 178Thinking (No Tools)-1.20
MMLU Pro85.2023 / 126Thinking (No Tools)86.1018 / 126Thinking (No Tools)-0.90

Agent Level Benchmark

Qwen3.5-27B 领先 1/1
评测项Gemma 4 31BQwen3.5-27B分差
τ²-Bench76.9019 / 40Thinking (With Tools)7917 / 40Thinking (With Tools)-2.10

Coding and Software Engineer

Qwen3.5-27B 领先 1/1
评测项Gemma 4 31BQwen3.5-27B分差
LiveCodeBench8030 / 120Thinking (No Tools)80.7027 / 120Thinking (With Tools)-0.70

规格对比

字段Gemma 4 31BQwen3.5-27B
发布机构DeepMind阿里巴巴
发布时间2026-04-022026-02-25
模型类型聊天大模型推理大模型
架构稠密模型稠密模型
参数规模31亿270亿
上下文长度256K1010K
最大输出32K248320

小结

  • Qwen3.5-27B在以下类目领先:General Knowledge (3/3)、Agent Level Benchmark (1/1)、Coding and Software Engineer (1/1)

5 个共同 benchmark 上,Qwen3.5-27B 平均高出 5.38 分。

单项差距最大的 benchmark:HLE — Gemma 4 31B 26.50,Qwen3.5-27B 48.50(分差 -22)。

本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。