加载中...
加载中...
自动展示选中模型的核心信息与各评测得分,可左右滑动查看完整表格。
Google DeepMind于2026年4月2日发布了Gemma 4,阿里巴巴Qwen团队于同年2月25日发布了Qwen3.5,两者都是目前30B参数量级里各自最强的开源模型。
从基础规格来看,两款模型都采用Apache 2.0许可证,都支持思考模式,都可以免费商用。Qwen3.5-27B支持201种语言,上下文窗口最长可扩展至100万tokens;Gemma 4 31B支持140+种语言,上下文窗口为256K,参数量略大一点(31B vs 27B)。在多模态输入上,Gemma 4 31B支持文本、图片和视频,Qwen3.5-27B支持文本和图片。
在代表综合学科知识的MMLU Pro上,Qwen3.5-27B得86.1%,Gemma 4 31B得85.2%,差了将近1个百分点。测试博士级物理、化学、生物推理的GPQA Diamond上,差距稍大一些:Qwen3.5-27B 85.5%,Gemma 4 31B 84.3%,差了1.2个百分点。
这两项差距放在绝对值上都不算大,但方向是一致的,Qwen3.5-27B在这两个维度上都高一点。
在LiveCodeBench v6上,Qwen3.5-27B得80.7%,Gemma 4 31B得80.0%,差距0.7个百分点,基本持平。LiveCodeBench每月滚动更新题库,抗测试集污染性较好,这个结果可以认为两者编程能力接近。
但如果拆开来看具体类型,差异就明显了。在Codeforces ELO这个衡量算法竞赛编程能力的指标上,Gemma 4 31B得2150,Qwen3.5-27B得1899,差了251分。在这个分数区间内251分不是噪声,Gemma 4 31B在竞赛类算法题上明显更强。
另一边,SWE-bench Verified测的是在真实开源代码库里定位和修复bug的能力,这比写算法题更接近实际工程场景。Qwen3.5-27B在这项上得了72.4%,Gemma 4 31B没有发布对应分数,无法比较。
在HLE这个专门针对人类最难问题的评测上,不使用任何工具的纯推理条件下,Gemma 4 31B得26.5%,Qwen3.5-27B得24.3%,Gemma 4 31B略高一点。不过两者的绝对分数都不高,这项基准对目前所有模型来说都很难。
值得注意的是,一旦允许使用工具,Qwen3.5-27B的HLE得分跳到48.5%,提升幅度非常大。Gemma 4 31B在有工具条件下的HLE分数没有公布。
在τ²-Bench这个测试Agent多步任务执行的基准上,Qwen3.5-27B得79.0,Gemma 4 31B得76.9,差了2.1分,Qwen3.5-27B胜出。
IFEval专门测模型能否准确执行格式要求和约束条件,Qwen3.5-27B在这项上得了95.0%,接近满分。Gemma 4 31B没有发布这项数据。
多语言方面,Qwen3.5-27B在跨语言版本的MMMLU上得85.9%,在覆盖29种语言的MMLU-ProX上得82.2%。Gemma 4 31B虽然声称支持140+种语言,但没有公布任何多语言评测分数。
在综合多模态理解基准MMMU Pro上,Gemma 4 31B得76.9%,Qwen3.5-27B没有发布对应分数。
在输入类型上,Gemma 4 31B支持最长60秒的视频序列输入,Qwen3.5-27B不支持视频输入。这是两者之间最明显的能力差异之一,也是Gemma 4 31B目前在多模态方向上的主要卖点。
Gemma 4 31B在LMArena文本对话榜单上的预估ELO约为1452,在所有开源模型中排名第三。Qwen3.5-27B没有发布对应的Arena排名数据。
在两者均公布了分数的评测项里,Gemma 4 31B只在Codeforces ELO(算法竞赛编程)上明显领先,综合知识、科学推理、编程通用能力、Agent任务上均持平或小幅落后。
Qwen3.5-27B的优势更集中在文本任务上:综合知识略高、科学推理略高、指令遵循接近满分、工具调用能力更强、工程代码修复有数据支撑。语言覆盖范围更广,且有评测数据验证。代价是不支持视频输入,在竞赛类算法题上比Gemma 4 31B弱。
Gemma 4 31B的差异化价值在于多模态:视频输入、图像理解,以及在竞赛算法题上的明确优势。如果任务不涉及这些,从现有公开数据来看,Qwen3.5-27B在纯文本和工具调用场景下的综合表现更稳定。