Gemma 3 - 12B (IT)
Gemma 3 - 12B (IT)
模型参数
120.0亿
上下文长度
128K
中文支持
支持
推理能力
模型基本信息
推理过程
不支持
上下文长度
128K tokens
最大输出长度
暂无数据
模型类型
基础大模型
发布时间
2025-03-12
模型文件大小
2GB
MoE架构
否
总参数 / 激活参数
120.0 亿 / 不涉及
知识截止
暂无数据
推理模式
暂无模式数据
开源和体验地址
官方介绍与博客
DataLearnerAI博客
暂无介绍博客
API接口信息
接口速度
暂无数据
暂无公开的 API 定价信息。
评测得分
发布机构
Google Deep Mind
查看发布机构详情 模型解读
Gemma 3 - 12B(IT)是Google开源的120亿参数的第三代多模态大模型。IT后缀表明这是一个经过指令微调的版本,即insturction fine-tuned。
关于Gemma 3系列详细介绍参考: https://www.datalearner.com/blog/1051741769941194
Gemma3-12B 是 Google DeepMind 最新发布的 Gemma 3 系列模型之一,相较于 4B 版本,它在参数规模、计算能力和任务表现上进一步提升,同时保持了较好的计算效率。该模型支持 128K tokens 的长上下文处理,集成了 417M 参数的视觉编码器,并采用 知识蒸馏 进行优化,在文本生成、多模态任务和推理能力上展现出优异的性能。
模型架构与设计
- 解码器结构与注意力机制 采用 解码器 Transformer 架构,引入 Grouped-Query Attention (GQA),结合 QK-norm 以优化注意力分布,提高计算稳定性。
- 局部与全局注意力层交替 采用 5:1 的局部/全局注意力交替 设计,减少 KV 缓存占用,使长文本推理更高效。
- 视觉模块 内置 417M 参数的 SigLIP 视觉编码器,支持图像输入,可用于 OCR、图文对齐等任务。
训练细节
- 知识蒸馏:从更大模型(如 27B 版本)学习,提高文本理解和生成能力。
- 训练数据:使用 10T tokens 进行训练,包含大规模多语言文本和图像数据。
- 训练硬件:在 TPUv4 平台 上训练,采用 6144 个 TPU,16 数据切分、16 序列切分、24 副本。
参数配置
| 模型版本 | 视觉编码器参数 | 嵌入参数 | 非嵌入参数 | 上下文长度 |
|---|---|---|---|---|
| Gemma3‑4B | 417M | 675M | 3209M | 128K tokens |
| Gemma3‑12B | 417M | 1012M | 10759M | 128K tokens |
| Gemma3‑27B | 417M | 1416M | 25600M | 128K tokens |
模型特点与评测表现
- 多模态能力:内置视觉编码器,适用于图文任务。
- 长上下文处理:支持 128K tokens,适用于代码生成和复杂推理。
- 计算性能平衡:比 4B 更强,比 27B 计算要求更低,适合高性能需求但资源受限的场景。
总结
Gemma3-12B 在计算能力和任务表现上比 4B 版本更强,支持多模态输入,适合需要高效推理和长文本处理的任务,同时比 27B 版本更易部署。适用于 NLP、代码生成、OCR 以及多语言任务,是当前开源 LLM 生态中的重要选择。
DataLearner 官方微信
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
