Gemma 3 - 12B(IT)是Google开源的120亿参数的第三代多模态大模型。IT后缀表明这是一个经过指令微调的版本，即insturction fine-tuned。

关于Gemma 3系列详细介绍参考： https://www.datalearner.com/blog/1051741769941194

Gemma3-12B 是 Google DeepMind 最新发布的 Gemma 3 系列模型之一，相较于 4B 版本，它在参数规模、计算能力和任务表现上进一步提升，同时保持了较好的计算效率。该模型支持 128K tokens 的长上下文处理，集成了 417M 参数的视觉编码器，并采用 知识蒸馏 进行优化，在文本生成、多模态任务和推理能力上展现出优异的性能。

模型架构与设计

解码器结构与注意力机制采用解码器 Transformer 架构，引入 Grouped-Query Attention (GQA)，结合 QK-norm 以优化注意力分布，提高计算稳定性。
局部与全局注意力层交替采用 5:1 的局部/全局注意力交替设计，减少 KV 缓存占用，使长文本推理更高效。
视觉模块内置 417M 参数的 SigLIP 视觉编码器，支持图像输入，可用于 OCR、图文对齐等任务。

训练细节

知识蒸馏：从更大模型（如 27B 版本）学习，提高文本理解和生成能力。
训练数据：使用 10T tokens 进行训练，包含大规模多语言文本和图像数据。
训练硬件：在 TPUv4 平台 上训练，采用 6144 个 TPU，16 数据切分、16 序列切分、24 副本。

参数配置

模型版本	视觉编码器参数	嵌入参数	非嵌入参数	上下文长度
Gemma3‑4B	417M	675M	3209M	128K tokens
Gemma3‑12B	417M	1012M	10759M	128K tokens
Gemma3‑27B	417M	1416M	25600M	128K tokens

模型特点与评测表现

多模态能力：内置视觉编码器，适用于图文任务。
长上下文处理：支持 128K tokens，适用于代码生成和复杂推理。
计算性能平衡：比 4B 更强，比 27B 计算要求更低，适合高性能需求但资源受限的场景。

总结

Gemma3-12B 在计算能力和任务表现上比 4B 版本更强，支持多模态输入，适合需要高效推理和长文本处理的任务，同时比 27B 版本更易部署。适用于 NLP、代码生成、OCR 以及多语言任务，是当前开源 LLM 生态中的重要选择。

Gemma 3 - 12B (IT)

模型基本信息

是否支持推理过程

最高上下文输入长度

最长输出结果

模型类型

发布时间

模型预文件大小

开源和体验地址

代码开源状态

预训练权重开源

GitHub 源码

Hugging Face

在线体验

官方介绍与博客

官方论文

DataLearnerAI博客

API接口信息

接口速度（满分5分）

接口价格

输入价格:

输出价格:

输入支持的模态

文本

图片

视频

音频

Embedding（向量）

输出支持的模态

文本

图片

视频

音频

Embedding（向量）

Gemma 3 - 12B (IT)模型在各大评测榜单的评分

发布机构

模型介绍

模型架构与设计

训练细节

参数配置

模型特点与评测表现

总结

关注DataLearnerAI公众号