Google 开源 Gemma 4:四个版本,从手机到服务器
2026年4月2日,Google DeepMind 发布了 Gemma 4 系列,共四个版本:E2B、E4B、26B A4B 和 31B Dense。这也是 Gemma 系列首次采用 Apache 2.0 授权,允许完全商用和二次分发。
先说命名,因为它容易让人困惑
四个版本的命名方式并不统一,背后逻辑各不相同,值得单独解释。
E2B 和 E4B 中的「E」代表「Effective(有效参数量)」。这两个版本使用了 Per-Layer Embeddings(PLE)技术,在每一层都嵌入了一个并联的参数矩阵用于快速查找,实际总参数量高于命名中的数字,但推理时激活的「有效参数」分别约为 2.3B 和 4.5B。 Google 没有公布这两个版本的精确总参数量,仅以有效参数作为规格标称。
26B A4B 中的「A」代表「Active(活跃参数)」——这是一个混合专家(MoE)架构,总参数约 25.2B,但每次前向传播只激活其中约 3.8B,推理速度接近一个 4B 的稠密模型。
31B Dense 则是传统稠密架构,全量 310 亿参数都参与推理,是四个版本中质量最高、硬件需求也最大的。
四个版本的定位和硬件要求
E2B / E4B(边缘版)
这两个版本专为移动设备和 IoT 硬件设计,目标平台包括安卓手机、树莓派和 Jetson Orin Nano,支持完全离线运行。E2B 可以跑在手机上,E4B 可以跑在 8GB 内存的笔记本上。
在能力上,两者与大版本的最大区别在于原生支持音频输入:E2B 和 E4B 内置 USM 风格的 Conformer 音频编码器,支持最长 30 秒的语音输入,可做语音识别(ASR)和跨语言翻译。上下文窗口为 128K tokens。
需要注意的是,实测中 E4B 在音频转录方面表现准确,E2B 偶有幻听。
26B A4B MoE(中端版)
总参数 25.2B,但推理时只激活 3.8B,因此可以在量化后跑在显存 24GB 的消费级显卡(如 RTX 3090/4090)上。上下文窗口为 256K tokens。在 Arena AI 开放模型排行榜上目前排名第六。
31B Dense(旗舰版)
未量化的 bfloat16 权重可以装入单张 80GB NVIDIA H100,量化后可在消费级显卡上运行。Arena AI 开放模型排名第三,是四个版本中基准分最高的,Google 也将其定位为微调基础模型。
基准测试
以下数据来自 Google 官方发布,评测对象为指令微调+思考模式版本:
31B 和 26B 相比上代 Gemma 3 27B 的提升幅度相当大,尤其在数学(89.2% vs 20.8%)和代码(80.0% vs 29.1%)上。第三方机构 Artificial Analysis 的独立测试基本印证了这些数字。在 GPQA Diamond 上,31B 得分 85.7%,在参数量 40B 以下的开源模型中排名第二,仅次于 Qwen3.5 27B(85.8%);26B MoE 得 79.2%,高于 OpenAI 的 gpt-oss-120B(76.2%)。
架构设计
四个版本共用一套混合注意力机制:局部滑动窗口注意力与全局注意力交替排列,最后一层始终为全局注意力。全局层采用 KV 共享和 Proportional RoPE(p-RoPE)来控制长上下文的内存开销。
视觉编码器使用多维 RoPE,支持可变宽高比,图像 token 预算可配置(70 到 1120 个 token),在细节精度和推理速度之间可以手动权衡。词表大小为 262K,覆盖 140 种语言。
所有版本都内置「思考模式」,可以在回答前逐步推理。E2B 和 E4B 不支持关闭思考模式;26B 和 31B 可以关闭,但即便关闭,模型仍会生成思考标签,只是内容为空。
许可证和获取方式
相比此前 Gemma 系列使用的 Google 自有许可证,Gemma 4 改用 Apache 2.0,允许开发者自由修改、再分发和商用,无需支付版权费。
模型权重可在 Hugging Face、Kaggle 和 Ollama 下载。31B 和 26B 版本可在 Google AI Studio 中直接调用,E4B 和 E2B 可通过 Google AI Edge Gallery 访问。支持的推理框架包括 Hugging Face Transformers、vLLM、llama.cpp、MLX、Ollama、NVIDIA NIM/NeMo、LM Studio、Unsloth、SGLang、Keras 等,首日全部可用。
训练数据截止时间为 2025 年 1 月。
