DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
工具
语言中文

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
目录
目录
  1. 首页/
  2. 博客列表/
  3. 博客详情

Google 开源 Gemma 4:四个版本,从手机到服务器

2026/04/03 12:27:06
28 阅读
gemmagemma4谷歌

2026年4月2日,Google DeepMind 发布了 Gemma 4 系列,共四个版本:E2B、E4B、26B A4B 和 31B Dense。这也是 Gemma 系列首次采用 Apache 2.0 授权,允许完全商用和二次分发。


先说命名,因为它容易让人困惑

四个版本的命名方式并不统一,背后逻辑各不相同,值得单独解释。

E2B 和 E4B 中的「E」代表「Effective(有效参数量)」。这两个版本使用了 Per-Layer Embeddings(PLE)技术,在每一层都嵌入了一个并联的参数矩阵用于快速查找,实际总参数量高于命名中的数字,但推理时激活的「有效参数」分别约为 2.3B 和 4.5B。 Google 没有公布这两个版本的精确总参数量,仅以有效参数作为规格标称。

26B A4B 中的「A」代表「Active(活跃参数)」——这是一个混合专家(MoE)架构,总参数约 25.2B,但每次前向传播只激活其中约 3.8B,推理速度接近一个 4B 的稠密模型。

31B Dense 则是传统稠密架构,全量 310 亿参数都参与推理,是四个版本中质量最高、硬件需求也最大的。


四个版本的定位和硬件要求

E2B / E4B(边缘版)

这两个版本专为移动设备和 IoT 硬件设计,目标平台包括安卓手机、树莓派和 Jetson Orin Nano,支持完全离线运行。E2B 可以跑在手机上,E4B 可以跑在 8GB 内存的笔记本上。

在能力上,两者与大版本的最大区别在于原生支持音频输入:E2B 和 E4B 内置 USM 风格的 Conformer 音频编码器,支持最长 30 秒的语音输入,可做语音识别(ASR)和跨语言翻译。上下文窗口为 128K tokens。

需要注意的是,实测中 E4B 在音频转录方面表现准确,E2B 偶有幻听。

26B A4B MoE(中端版)

总参数 25.2B,但推理时只激活 3.8B,因此可以在量化后跑在显存 24GB 的消费级显卡(如 RTX 3090/4090)上。上下文窗口为 256K tokens。在 Arena AI 开放模型排行榜上目前排名第六。

31B Dense(旗舰版)

未量化的 bfloat16 权重可以装入单张 80GB NVIDIA H100,量化后可在消费级显卡上运行。Arena AI 开放模型排名第三,是四个版本中基准分最高的,Google 也将其定位为微调基础模型。


基准测试

以下数据来自 Google 官方发布,评测对象为指令微调+思考模式版本:

基准31B Dense26B A4BE4BE2B上代 Gemma 3 27B
MMLU(多语言问答)85.2%82.6%69.4%60.0%67.6%
AIME 2026(数学)89.2%88.3%42.5%37.5%20.8%
LiveCodeBench v6(编程)80.0%77.1%52.0%44.0%29.1%
GPQA Diamond(科学)84.3%82.3%58.6%43.4%42.4%
τ²-bench 零售 Agent(工具调用)86.4%85.5%57.5%29.4%6.6%
Arena AI Elo14521441——1365

31B 和 26B 相比上代 Gemma 3 27B 的提升幅度相当大,尤其在数学(89.2% vs 20.8%)和代码(80.0% vs 29.1%)上。第三方机构 Artificial Analysis 的独立测试基本印证了这些数字。在 GPQA Diamond 上,31B 得分 85.7%,在参数量 40B 以下的开源模型中排名第二,仅次于 Qwen3.5 27B(85.8%);26B MoE 得 79.2%,高于 OpenAI 的 gpt-oss-120B(76.2%)。


架构设计

四个版本共用一套混合注意力机制:局部滑动窗口注意力与全局注意力交替排列,最后一层始终为全局注意力。全局层采用 KV 共享和 Proportional RoPE(p-RoPE)来控制长上下文的内存开销。

视觉编码器使用多维 RoPE,支持可变宽高比,图像 token 预算可配置(70 到 1120 个 token),在细节精度和推理速度之间可以手动权衡。词表大小为 262K,覆盖 140 种语言。

所有版本都内置「思考模式」,可以在回答前逐步推理。E2B 和 E4B 不支持关闭思考模式;26B 和 31B 可以关闭,但即便关闭,模型仍会生成思考标签,只是内容为空。


许可证和获取方式

相比此前 Gemma 系列使用的 Google 自有许可证,Gemma 4 改用 Apache 2.0,允许开发者自由修改、再分发和商用,无需支付版权费。

模型权重可在 Hugging Face、Kaggle 和 Ollama 下载。31B 和 26B 版本可在 Google AI Studio 中直接调用,E4B 和 E2B 可通过 Google AI Edge Gallery 访问。支持的推理框架包括 Hugging Face Transformers、vLLM、llama.cpp、MLX、Ollama、NVIDIA NIM/NeMo、LM Studio、Unsloth、SGLang、Keras 等,首日全部可用。

训练数据截止时间为 2025 年 1 月。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

相关博客

  • Google DeepMind 发布 EmbeddingGemma:面向端侧的多语言开源向量模型(308M),小体量也能打
  • Google开源CodeGemma编程大模型和RNN架构大模型RecurrentGemma,同等参数规模最强编程大模型以及更快的大模型
  • 重磅!谷歌开源Gemini同源技术大模型Gemma,分别为70亿参数和20亿参数,同等规模参数评测极其优秀!
  • 谷歌发布视频大模型Veo 3.1:电影级别的视频生成,声音合成和同步能力大幅提升,但相比较Sora2依然有明显差距!
  • Google发布Gemini 2.5 Pro: Gemini系列第一个2.5版本的模型,最高支持200万上下文,全模态输入,推理大模型,LMArena排名第一
  • Google Gemini Pro多模态接口开放!DataLearnerAI第一时间测试Gemini Pro多模态能力,比想象惊喜!
  • Google发布面试辅助工具Interview Warmup帮助我们理解谷歌面试内容

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署