热门大模型对比：300亿参数规模的开源顶级模型对比：谷歌Gemma4-31b与阿里Qwen3.5-27B评测对比

Google DeepMind于2026年4月2日发布了Gemma 4，阿里巴巴Qwen团队于同年2月25日发布了Qwen3.5，两者都是目前30B参数量级里各自最强的开源模型。

从基础规格来看，两款模型都采用Apache 2.0许可证，都支持思考模式，都可以免费商用。Qwen3.5-27B支持201种语言，上下文窗口最长可扩展至100万tokens；Gemma 4 31B支持140+种语言，上下文窗口为256K，参数量略大一点（31B vs 27B）。在多模态输入上，Gemma 4 31B支持文本、图片和视频，Qwen3.5-27B支持文本和图片。

综合知识与科学推理：Qwen3.5-27B略胜

在代表综合学科知识的MMLU Pro上，Qwen3.5-27B得86.1%，Gemma 4 31B得85.2%，差了将近1个百分点。测试博士级物理、化学、生物推理的GPQA Diamond上，差距稍大一些：Qwen3.5-27B 85.5%，Gemma 4 31B 84.3%，差了1.2个百分点。

这两项差距放在绝对值上都不算大，但方向是一致的，Qwen3.5-27B在这两个维度上都高一点。

编程能力：竞赛题Gemma更强，工程修复Qwen有数据

在LiveCodeBench v6上，Qwen3.5-27B得80.7%，Gemma 4 31B得80.0%，差距0.7个百分点，基本持平。LiveCodeBench每月滚动更新题库，抗测试集污染性较好，这个结果可以认为两者编程能力接近。

但如果拆开来看具体类型，差异就明显了。在Codeforces ELO这个衡量算法竞赛编程能力的指标上，Gemma 4 31B得2150，Qwen3.5-27B得1899，差了251分。在这个分数区间内251分不是噪声，Gemma 4 31B在竞赛类算法题上明显更强。

另一边，SWE-bench Verified测的是在真实开源代码库里定位和修复bug的能力，这比写算法题更接近实际工程场景。Qwen3.5-27B在这项上得了72.4%，Gemma 4 31B没有发布对应分数，无法比较。

推理与复杂任务：Qwen3.5-27B在工具加持下优势明显

在HLE这个专门针对人类最难问题的评测上，不使用任何工具的纯推理条件下，Gemma 4 31B得26.5%，Qwen3.5-27B得24.3%，Gemma 4 31B略高一点。不过两者的绝对分数都不高，这项基准对目前所有模型来说都很难。

值得注意的是，一旦允许使用工具，Qwen3.5-27B的HLE得分跳到48.5%，提升幅度非常大。Gemma 4 31B在有工具条件下的HLE分数没有公布。

在τ²-Bench这个测试Agent多步任务执行的基准上，Qwen3.5-27B得79.0，Gemma 4 31B得76.9，差了2.1分，Qwen3.5-27B胜出。

指令遵循与多语言：Qwen3.5-27B有完整数据，Gemma 4 31B没有

IFEval专门测模型能否准确执行格式要求和约束条件，Qwen3.5-27B在这项上得了95.0%，接近满分。Gemma 4 31B没有发布这项数据。

多语言方面，Qwen3.5-27B在跨语言版本的MMMLU上得85.9%，在覆盖29种语言的MMLU-ProX上得82.2%。Gemma 4 31B虽然声称支持140+种语言，但没有公布任何多语言评测分数。

多模态视觉与视频：Gemma 4 31B的差异化优势

在综合多模态理解基准MMMU Pro上，Gemma 4 31B得76.9%，Qwen3.5-27B没有发布对应分数。

在输入类型上，Gemma 4 31B支持最长60秒的视频序列输入，Qwen3.5-27B不支持视频输入。这是两者之间最明显的能力差异之一，也是Gemma 4 31B目前在多模态方向上的主要卖点。

人类偏好：Gemma 4 31B在Arena排名靠前

Gemma 4 31B在LMArena文本对话榜单上的预估ELO约为1452，在所有开源模型中排名第三。Qwen3.5-27B没有发布对应的Arena排名数据。

总结

在两者均公布了分数的评测项里，Gemma 4 31B只在Codeforces ELO（算法竞赛编程）上明显领先，综合知识、科学推理、编程通用能力、Agent任务上均持平或小幅落后。

Qwen3.5-27B的优势更集中在文本任务上：综合知识略高、科学推理略高、指令遵循接近满分、工具调用能力更强、工程代码修复有数据支撑。语言覆盖范围更广，且有评测数据验证。代价是不支持视频输入，在竞赛类算法题上比Gemma 4 31B弱。

Gemma 4 31B的差异化价值在于多模态：视频输入、图像理解，以及在竞赛算法题上的明确优势。如果任务不涉及这些，从现有公开数据来看，Qwen3.5-27B在纯文本和工具调用场景下的综合表现更稳定。

评测项	Gemma 4 31B	Qwen3.5-27B
GPQA Diamond 综合评估	84.30开启思考	85.50开启思考
HLE 综合评估	26.50开启思考｜工具	48.50开启思考｜工具
MMLU Pro 综合评估	85.20开启思考	86.10开启思考
LiveCodeBench 编程与软件工程	80.00开启思考	80.70开启思考｜工具
τ²-Bench Agent能力评测	76.90开启思考｜工具	79.00开启思考｜工具

功能与规格	Gemma 4 31BDeepMind	Qwen3.5-27B阿里巴巴
核心规格发布时间	2026-04-02	2026-02-25
上下文	256K	1010K
参数量	31	270
激活参数量	31	270
最大输出	32768	248320
MoE 架构	不支持	不支持
支持模式	暂无模式数据	常规模式（Non-Thinking Mode）思考模式（Thinking Mode）
开源与许可代码开源	未提供	未提供
权重开源	未提供	未提供
商业授权	免费商用授权	免费商用授权
资料来源论文 / 报告	Gemma 4: Byte for byte, the most capable open models	Qwen3.5: Towards Native Multimodal Agents
DataLearner 博客	Google Gemma 4 正式开源：Apache 2.0 协议、手机端可运行、原生支持多模态和 Agent 工作流	未提供

300亿参数规模的开源顶级模型对比：谷歌Gemma4-31b与阿里Qwen3.5-27B评测对比

综合知识与科学推理：Qwen3.5-27B略胜

编程能力：竞赛题Gemma更强，工程修复Qwen有数据

推理与复杂任务：Qwen3.5-27B在工具加持下优势明显

指令遵循与多语言：Qwen3.5-27B有完整数据，Gemma 4 31B没有

多模态视觉与视频：Gemma 4 31B的差异化优势

人类偏好：Gemma 4 31B在Arena排名靠前

总结

能力分布概览

性能评测对比

评测得分表格

API 价格对比

能力与规格明细