Ge

Gemma 3 - 12B (IT)

基础大模型

Gemma 3 - 12B (IT)

发布时间: 2025-03-12

模型参数(Parameters)
120.0
最高上下文长度(Context Length)
128K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

128K tokens

最长输出结果
暂无数据
模型类型

基础大模型

发布时间

2025-03-12

模型预文件大小

2GB

开源和体验地址

代码开源状态
预训练权重开源
Gemma Terms of Use - 免费商用授权
GitHub 源码
暂无GitHub开源地址
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度(满分5分)
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

Gemma 3 - 12B (IT)模型在各大评测榜单的评分

评测基准名称
MMLU Pro
(知识问答)
评测结果:60.6
评测基准名称
MATH
(数学推理)
评测结果:83.8
评测基准名称
GPQA Diamond
(常识推理)
评测结果:40.9
评测基准名称
SimpleQA
(真实性评估)
评测结果:6.3
评测基准名称
LiveCodeBench
(代码生成)
评测结果:24.6

发布机构

模型介绍

Gemma 3 - 12B(IT)是Google开源的120亿参数的第三代多模态大模型。IT后缀表明这是一个经过指令微调的版本,即insturction fine-tuned。


关于Gemma 3系列详细介绍参考: https://www.datalearner.com/blog/1051741769941194 


Gemma3-12B 是 Google DeepMind 最新发布的 Gemma 3 系列模型之一,相较于 4B 版本,它在参数规模、计算能力和任务表现上进一步提升,同时保持了较好的计算效率。该模型支持 128K tokens 的长上下文处理,集成了 417M 参数的视觉编码器,并采用 知识蒸馏 进行优化,在文本生成、多模态任务和推理能力上展现出优异的性能。


模型架构与设计

  • 解码器结构与注意力机制 采用 解码器 Transformer 架构,引入 Grouped-Query Attention (GQA),结合 QK-norm 以优化注意力分布,提高计算稳定性。
  • 局部与全局注意力层交替 采用 5:1 的局部/全局注意力交替 设计,减少 KV 缓存占用,使长文本推理更高效。
  • 视觉模块 内置 417M 参数的 SigLIP 视觉编码器,支持图像输入,可用于 OCR、图文对齐等任务。

训练细节

  • 知识蒸馏:从更大模型(如 27B 版本)学习,提高文本理解和生成能力。
  • 训练数据:使用 10T tokens 进行训练,包含大规模多语言文本和图像数据。
  • 训练硬件:在 TPUv4 平台 上训练,采用 6144 个 TPU,16 数据切分、16 序列切分、24 副本。

参数配置

模型版本视觉编码器参数嵌入参数非嵌入参数上下文长度
Gemma3‑4B417M675M3209M128K tokens
Gemma3‑12B417M1012M10759M128K tokens
Gemma3‑27B417M1416M25600M128K tokens

模型特点与评测表现

  • 多模态能力:内置视觉编码器,适用于图文任务。
  • 长上下文处理:支持 128K tokens,适用于代码生成和复杂推理。
  • 计算性能平衡:比 4B 更强,比 27B 计算要求更低,适合高性能需求但资源受限的场景。

总结

Gemma3-12B 在计算能力和任务表现上比 4B 版本更强,支持多模态输入,适合需要高效推理和长文本处理的任务,同时比 27B 版本更易部署。适用于 NLP、代码生成、OCR 以及多语言任务,是当前开源 LLM 生态中的重要选择。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat