Gemma 3 - 1B (IT)
Gemma 3 - 1B (IT) is an AI model published by Google Deep Mind, released on 2025-03-12, for 多模态大模型, with 10.0B parameters, and 128K tokens context length, requiring about 2GB storage, under the Gemma Terms of Use license.
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
关于Gemma3 系列详细的介绍参考DataLearnerAI的博客: https://www.datalearner.com/blog/1051741769941194
Gemma3-1B(IT)是10亿参数规模版,IT表示Instruction Fine-Tuned,即指令微调版本,Google也开源未作微调的基座预训练版本,参考: https://huggingface.co/google/gemma-3-1b-pt
Google DeepMind 最近发布了全新的 Gemma 3 系列模型,这一系列涵盖了从 1B 到 27B 参数的多个版本,面向文本、图像乃至代码的多模态处理任务。整个系列专为在消费级硬件(如手机、笔记本及高端 GPU)上高效运行而设计,不仅支持扩展上下文、提升多语言能力,还在数学推理和指令跟随等方面实现了显著提升。例如,虽然大部分版本支持 128K tokens 的长上下文能力,但参数规模最小的版本——Gemma3‑1B 则专门针对资源受限场景进行了优化,仅支持 32K tokens 的上下文长度。
整体上,Google 发布的 Gemma 3 系列延续了纯解码器 Transformer 的架构,采用了 Grouped-Query Attention (GQA) 机制,并通过局部与全局注意力层的交替设计(如 5:1 的局部/全局比例),有效降低了长上下文推理时 KV 缓存的内存开销。同时,在预训练中,模型利用了大规模文本和图像数据,并通过知识蒸馏与后训练策略,在各项任务上实现了全面性能提升。
在 Google 发布的多个版本中,Gemma3‑1B 作为参数量最小的模型,专为轻量化应用场景设计。尽管规模相对较小,该模型依然继承了 Gemma 3 系列的核心架构与训练理念,旨在为资源受限设备提供高效推理能力。
Gemma3‑1B 基于解码器 Transformer 架构,沿用了 Google 之前版本中的多项创新设计:
在预训练阶段,Google 采用了与之前版本类似的训练配方,同时针对小模型的特点进行了专门调整:
下表摘自技术报告中的参数统计,展示了不同模型版本的参数分布情况:
| 模型版本 | 视觉编码器参数 | 嵌入参数 | 非嵌入参数 | 上下文长度 |
|---|---|---|---|---|
| Gemma3‑1B | 0 | 302M | 698M | 32K tokens |
| Gemma3‑4B | 417M | 675M | 3209M | 128K tokens |
| Gemma3‑12B | 417M | 1012M | 10759M | 128K tokens |
| Gemma3‑27B | 417M | 1416M | 25600M | 128K tokens |
可以看出,Gemma3‑1B 在轻量化设计上做出了明显取舍,取消了视觉模块并缩短了上下文处理能力,从而更适合资源受限的应用场景。
尽管参数量较小,Gemma3‑1B 依然展示了 Google 发布的 Gemma 3 系列的多项技术优势:
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
