Gemma 4 全面解读：首个 Apache 2.0 的 Google 开源模型，实测数学推理优秀，实测部分评测甚至好于 Qwen3.5-27B

Gemma 4 全面解读：首个 Apache 2.0 的 Google 开源模型，实测数学推理优秀，实测部分评测甚至好于 Qwen3.5-27B | DataLearnerAI

最受认可的是许可证和多语言能力。 Apache 2.0 被普遍认为是这次发布中比 benchmark 数字更重要的变化。测试德语、阿拉伯语、越南语和法语的用户报告称 Gemma 4 在非英语任务上超越了 Qwen 3.5，有人称其在翻译方面是"独占一档"。
Hugging Face 团队给出了高度评价。 他们表示在预发布版本测试中印象深刻，甚至因为模型开箱即用的质量太高，难以找到足够有代表性的微调示例。
但速度问题成为发布后最集中的抱怨。 26B MoE 模型本应是效率优先的选择，但社区测试显示其实际推理速度只有约11 tokens/秒，而 Qwen 3.5 在同等 GPU 上能达到60 tokens/秒以上。这对于生产场景来说差距过于明显。
产品线的空白也引发了讨论，尤其是那个消失的124B模型。 发布当天，Google 的 Jeff Dean 在 X 上发的推文里写道 Gemma 4 的规模覆盖从边缘端"up to a 124B parameter MoE model"——但这句话不久后就从推文中悄悄删除了。社区很快注意到这个细节，结合发布前 Arena 上曾出现过一个叫"significant-otter"的匿名模型（自称是 Gemma 4，当时曝光的产品线包含一个 120B-A15B 的 MoE 版本），外界普遍认为更大规模的 Gemma 4 确实存在，只是没有随四款模型一起发布。有猜测认为这个模型在某些 benchmark 上的表现已经超越了 Gemini 3 Flash-Lite，Google 因此暂时搁置了发布。E4B 和 26B MoE 之间缺少一个12B左右的中间档位，也是另一个被反复提到的遗憾——Gemma 3 12B 在社区里颇受欢迎，但 Gemma 4 没有直接对应的升级版本。
**整体判断倾向于"值得关注，但还不够成熟"。**从务实角度来看：对于纯英文、速度敏感型场景，Qwen 3.5 目前仍是更优选择；对于多语言、有商业合规需求、以微调为主要使用方式的场景，Gemma 4 有相当有力的理由。速度和工具链的问题还需要几周时间沉淀，等量化感知训练（QAT）版本出来后，小规模模型的效率表现也会有明显改善。

Gemma 4 全面解读：首个 Apache 2.0 的 Google 开源模型，实测数学推理优秀，实测部分评测甚至好于 Qwen3.5-27B

DataLearner WeChat

四款模型同步发布，首次采用 Apache 2.0 全面开源

Gemma4 E2B和Gemma4 E4B：定位端侧，实际要求比较高

Gemma4 31B Dense 和 Gemma4 26B MoE：30B规模的模型，定位是消费级硬件旗舰模型

Gemma4四款模型共有的架构设计：交替注意力、双重 RoPE 和原生函数调用

30B 的 Gemma 4 与 27B 的 Qwen3.5 对比：多模态有优势，纯文本综合得分略低

实测表现：Gemma 4 31B略优于Qwen3.5-27B

第一个题目：编程算法题，gemma 4 31b约束考虑更周全

第二个题目：gemma 4 31b和qwen3.5-27B的Agent的工具规划方面很接近

Gemma4的许可证有较大变化，完全开源了

发布24小时后：多语言获好评，推理速度被集中吐槽，124B 大模型去哪了

Gemma4发布总结

Hot Blogs