Google 开源 Gemma 4：四个版本，从手机到服务器

加载中...

2026年4月2日，Google DeepMind 发布了 Gemma 4 系列，共四个版本：E2B、E4B、26B A4B 和 31B Dense。这也是 Gemma 系列首次采用 Apache 2.0 授权，允许完全商用和二次分发。

先说命名，因为它容易让人困惑

四个版本的命名方式并不统一，背后逻辑各不相同，值得单独解释。

E2B 和 E4B 中的「E」代表「Effective（有效参数量）」。这两个版本使用了 Per-Layer Embeddings（PLE）技术，在每一层都嵌入了一个并联的参数矩阵用于快速查找，实际总参数量高于命名中的数字，但推理时激活的「有效参数」分别约为 2.3B 和 4.5B。 Google 没有公布这两个版本的精确总参数量，仅以有效参数作为规格标称。

26B A4B 中的「A」代表「Active（活跃参数）」——这是一个混合专家（MoE）架构，总参数约 25.2B，但每次前向传播只激活其中约 3.8B，推理速度接近一个 4B 的稠密模型。

31B Dense 则是传统稠密架构，全量 310 亿参数都参与推理，是四个版本中质量最高、硬件需求也最大的。

四个版本的定位和硬件要求

E2B / E4B（边缘版）

这两个版本专为移动设备和 IoT 硬件设计，目标平台包括安卓手机、树莓派和 Jetson Orin Nano，支持完全离线运行。E2B 可以跑在手机上，E4B 可以跑在 8GB 内存的笔记本上。

在能力上，两者与大版本的最大区别在于原生支持音频输入：E2B 和 E4B 内置 USM 风格的 Conformer 音频编码器，支持最长 30 秒的语音输入，可做语音识别（ASR）和跨语言翻译。上下文窗口为 128K tokens。

需要注意的是，实测中 E4B 在音频转录方面表现准确，E2B 偶有幻听。

26B A4B MoE（中端版）

总参数 25.2B，但推理时只激活 3.8B，因此可以在量化后跑在显存 24GB 的消费级显卡（如 RTX 3090/4090）上。上下文窗口为 256K tokens。在 Arena AI 开放模型排行榜上目前排名第六。

31B Dense（旗舰版）

未量化的 bfloat16 权重可以装入单张 80GB NVIDIA H100，量化后可在消费级显卡上运行。Arena AI 开放模型排名第三，是四个版本中基准分最高的，Google 也将其定位为微调基础模型。

基准测试

以下数据来自 Google 官方发布，评测对象为指令微调+思考模式版本：

基准	31B Dense	26B A4B	E4B	E2B	上代 Gemma 3 27B
MMLU（多语言问答）	85.2%	82.6%	69.4%	60.0%	67.6%
AIME 2026（数学）	89.2%	88.3%	42.5%	37.5%	20.8%
LiveCodeBench v6（编程）	80.0%	77.1%	52.0%	44.0%	29.1%
GPQA Diamond（科学）	84.3%	82.3%	58.6%	43.4%	42.4%
τ²-bench 零售 Agent（工具调用）	86.4%	85.5%	57.5%	29.4%	6.6%
Arena AI Elo	1452	1441	—	—	1365

31B 和 26B 相比上代 Gemma 3 27B 的提升幅度相当大，尤其在数学（89.2% vs 20.8%）和代码（80.0% vs 29.1%）上。第三方机构 Artificial Analysis 的独立测试基本印证了这些数字。在 GPQA Diamond 上，31B 得分 85.7%，在参数量 40B 以下的开源模型中排名第二，仅次于 Qwen3.5 27B（85.8%）；26B MoE 得 79.2%，高于 OpenAI 的 gpt-oss-120B（76.2%）。

架构设计

四个版本共用一套混合注意力机制：局部滑动窗口注意力与全局注意力交替排列，最后一层始终为全局注意力。全局层采用 KV 共享和 Proportional RoPE（p-RoPE）来控制长上下文的内存开销。

视觉编码器使用多维 RoPE，支持可变宽高比，图像 token 预算可配置（70 到 1120 个 token），在细节精度和推理速度之间可以手动权衡。词表大小为 262K，覆盖 140 种语言。

所有版本都内置「思考模式」，可以在回答前逐步推理。E2B 和 E4B 不支持关闭思考模式；26B 和 31B 可以关闭，但即便关闭，模型仍会生成思考标签，只是内容为空。

许可证和获取方式

相比此前 Gemma 系列使用的 Google 自有许可证，Gemma 4 改用 Apache 2.0，允许开发者自由修改、再分发和商用，无需支付版权费。

模型权重可在 Hugging Face、Kaggle 和 Ollama 下载。31B 和 26B 版本可在 Google AI Studio 中直接调用，E4B 和 E2B 可通过 Google AI Edge Gallery 访问。支持的推理框架包括 Hugging Face Transformers、vLLM、llama.cpp、MLX、Ollama、NVIDIA NIM/NeMo、LM Studio、Unsloth、SGLang、Keras 等，首日全部可用。

训练数据截止时间为 2025 年 1 月。

Google 开源 Gemma 4：四个版本，从手机到服务器

先说命名，因为它容易让人困惑

四个版本的定位和硬件要求

基准测试

架构设计

许可证和获取方式

DataLearner WeChat

Google 开源 Gemma 4：四个版本，从手机到服务器

先说命名，因为它容易让人困惑

四个版本的定位和硬件要求

基准测试

架构设计

许可证和获取方式

DataLearner WeChat