DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
首页模型对比300亿参数规模的开源顶级模型对比:谷歌Gemma4-31b与阿里Qwen3.5-27B评测对比

300亿参数规模的开源顶级模型对比:谷歌Gemma4-31b与阿里Qwen3.5-27B评测对比

自动展示选中模型的核心信息与各评测得分,可左右滑动查看完整表格。 当前对比 2 个模型的评测数据与核心参数。

771 次浏览

Google DeepMind于2026年4月2日发布了Gemma 4,阿里巴巴Qwen团队于同年2月25日发布了Qwen3.5,两者都是目前30B参数量级里各自最强的开源模型。

从基础规格来看,两款模型都采用Apache 2.0许可证,都支持思考模式,都可以免费商用。Qwen3.5-27B支持201种语言,上下文窗口最长可扩展至100万tokens;Gemma 4 31B支持140+种语言,上下文窗口为256K,参数量略大一点(31B vs 27B)。在多模态输入上,Gemma 4 31B支持文本、图片和视频,Qwen3.5-27B支持文本和图片。


综合知识与科学推理:Qwen3.5-27B略胜

在代表综合学科知识的MMLU Pro上,Qwen3.5-27B得86.1%,Gemma 4 31B得85.2%,差了将近1个百分点。测试博士级物理、化学、生物推理的GPQA Diamond上,差距稍大一些:Qwen3.5-27B 85.5%,Gemma 4 31B 84.3%,差了1.2个百分点。

这两项差距放在绝对值上都不算大,但方向是一致的,Qwen3.5-27B在这两个维度上都高一点。


编程能力:竞赛题Gemma更强,工程修复Qwen有数据

在LiveCodeBench v6上,Qwen3.5-27B得80.7%,Gemma 4 31B得80.0%,差距0.7个百分点,基本持平。LiveCodeBench每月滚动更新题库,抗测试集污染性较好,这个结果可以认为两者编程能力接近。

但如果拆开来看具体类型,差异就明显了。在Codeforces ELO这个衡量算法竞赛编程能力的指标上,Gemma 4 31B得2150,Qwen3.5-27B得1899,差了251分。在这个分数区间内251分不是噪声,Gemma 4 31B在竞赛类算法题上明显更强。

另一边,SWE-bench Verified测的是在真实开源代码库里定位和修复bug的能力,这比写算法题更接近实际工程场景。Qwen3.5-27B在这项上得了72.4%,Gemma 4 31B没有发布对应分数,无法比较。


推理与复杂任务:Qwen3.5-27B在工具加持下优势明显

在HLE这个专门针对人类最难问题的评测上,不使用任何工具的纯推理条件下,Gemma 4 31B得26.5%,Qwen3.5-27B得24.3%,Gemma 4 31B略高一点。不过两者的绝对分数都不高,这项基准对目前所有模型来说都很难。

值得注意的是,一旦允许使用工具,Qwen3.5-27B的HLE得分跳到48.5%,提升幅度非常大。Gemma 4 31B在有工具条件下的HLE分数没有公布。

在τ²-Bench这个测试Agent多步任务执行的基准上,Qwen3.5-27B得79.0,Gemma 4 31B得76.9,差了2.1分,Qwen3.5-27B胜出。


指令遵循与多语言:Qwen3.5-27B有完整数据,Gemma 4 31B没有

IFEval专门测模型能否准确执行格式要求和约束条件,Qwen3.5-27B在这项上得了95.0%,接近满分。Gemma 4 31B没有发布这项数据。

多语言方面,Qwen3.5-27B在跨语言版本的MMMLU上得85.9%,在覆盖29种语言的MMLU-ProX上得82.2%。Gemma 4 31B虽然声称支持140+种语言,但没有公布任何多语言评测分数。


多模态视觉与视频:Gemma 4 31B的差异化优势

在综合多模态理解基准MMMU Pro上,Gemma 4 31B得76.9%,Qwen3.5-27B没有发布对应分数。

在输入类型上,Gemma 4 31B支持最长60秒的视频序列输入,Qwen3.5-27B不支持视频输入。这是两者之间最明显的能力差异之一,也是Gemma 4 31B目前在多模态方向上的主要卖点。


人类偏好:Gemma 4 31B在Arena排名靠前

Gemma 4 31B在LMArena文本对话榜单上的预估ELO约为1452,在所有开源模型中排名第三。Qwen3.5-27B没有发布对应的Arena排名数据。


总结

在两者均公布了分数的评测项里,Gemma 4 31B只在Codeforces ELO(算法竞赛编程)上明显领先,综合知识、科学推理、编程通用能力、Agent任务上均持平或小幅落后。

Qwen3.5-27B的优势更集中在文本任务上:综合知识略高、科学推理略高、指令遵循接近满分、工具调用能力更强、工程代码修复有数据支撑。语言覆盖范围更广,且有评测数据验证。代价是不支持视频输入,在竞赛类算法题上比Gemma 4 31B弱。

Gemma 4 31B的差异化价值在于多模态:视频输入、图像理解,以及在竞赛算法题上的明确优势。如果任务不涉及这些,从现有公开数据来看,Qwen3.5-27B在纯文本和工具调用场景下的综合表现更稳定。

DeepMind

Gemma 4 31B

DeepMind

发布时间
2026-04-02
上下文
256K
参数量
31
最大输出
32,768 tokens
查看详情·在线体验

能力分布概览

每条轴代表一个评测领域的平均水平,并统一映射到 100 分雷达坐标。

视图: 非并行模式平均·3 个维度
Gemma 4 31B

相对优势: 暂无明显优势 / 相对落后: 综合评估 -5.2

Qwen3.5-27B

相对优势: 综合评估 +5.2 / 相对落后: 暂无明显落后

计算口径:同一模型在同一 benchmark 下先平均当前模式范围内的所有分数,不取最高分;再按评测领域对这些 benchmark 分数求平均。只纳入至少两个模型有数据的 benchmark,缺项不按 0 分处理。

综合领先

Qwen3.5-27B · 75.96

单项最高

Qwen3.5-27B · MMLU Pro 86.10

模态覆盖

Gemma 4 31B · 0 种模态

正面对比

Gemma 4 31B
5
Qwen3.5-27B
领先持平落后

5

评测基准

0

领先项

5

落后项

-5.38

平均分差

性能评测对比

支持不同模式与工具的榜单对比。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

思考模式
工具使用
联网能力
筛选: 最佳可用·2 个模式 · 5 评测基准
图表加载中...

评测得分表格

完整列出各模型/模式的评测得分,便于横向比较。

5 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。

评测项Gemma 4 31BQwen3.5-27B
GPQA Diamond
综合评估
84.30开启思考
85.50开启思考
HLE
综合评估
26.50开启思考 | 工具
48.50开启思考 | 工具
MMLU Pro
综合评估
85.20开启思考
86.10开启思考
LiveCodeBench
编程与软件工程
80.00开启思考
80.70开启思考 | 工具
τ²-Bench
Agent能力评测
76.90开启思考 | 工具
79.00开启思考 | 工具

API 价格对比

输入输出 token 价格并排展示

能力与规格明细

是否 MoE、商业授权、模态支持等附加能力对比。

功能与规格
Gemma 4 31BDeepMind
Qwen3.5-27B阿里巴巴
核心规格发布时间
2026-04-022026-02-25
上下文
256K1010K
参数量
31270
激活参数量
31270
最大输出
32768248320
MoE 架构
不支持不支持
支持模式
暂无模式数据
常规模式(Non-Thinking Mode)思考模式(Thinking Mode)
开源与许可代码开源
未提供未提供
权重开源
未提供未提供
商业授权
免费商用授权免费商用授权
资料来源论文 / 报告
Gemma 4: Byte for byte, the most capable open modelsQwen3.5: Towards Native Multimodal Agents
DataLearner 博客
Google Gemma 4 正式开源:Apache 2.0 协议、手机端可运行、原生支持多模态和 Agent 工作流未提供
阿里巴巴

Qwen3.5-27B

阿里巴巴

发布时间
2026-02-25
上下文
1010K
参数量
270
最大输出
248,320 tokens
支持模态
常规模式(Non-Thinking Mode) · 思考模式(Thinking Mode)
查看详情·在线体验