DataLearner 标志DataLearnerAI
AI技术博客
大模型评测排行
大模型评测基准
AI大模型大全
AI资源仓库
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
目录
大模型列表Gemma 3 - 12B (IT)
GE

Gemma 3 - 12B (IT)

Gemma 3 - 12B (IT)

发布时间: 2025-03-12更新于: 2025-03-12 22:14:181,159
在线体验GitHubHugging FaceCompare
模型参数
120.0亿
上下文长度
128K
中文支持
支持
推理能力

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

Gemma 3 - 12B (IT)

模型基本信息

推理过程
不支持
上下文长度
128K tokens
最大输出长度
暂无数据
模型类型
基础大模型
发布时间
2025-03-12
模型文件大小
2GB
MoE架构
否
总参数 / 激活参数
120.0 亿 / 不涉及
知识截止
暂无数据
推理模式
暂无模式数据
Gemma 3 - 12B (IT)

开源和体验地址

代码开源状态
Gemma Terms of Use
预训练权重开源
Gemma Terms of Use- 免费商用授权
GitHub 源码
暂无GitHub开源地址
Hugging Face
https://huggingface.co/google/gemma-3-1b-it
在线体验
暂无在线体验地址
Gemma 3 - 12B (IT)

官方介绍与博客

官方论文
Gemma 3 Technical Report
DataLearnerAI博客
暂无介绍博客
Gemma 3 - 12B (IT)

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。
Gemma 3 - 12B (IT)

评测得分

综合评估

共 2 项评测
评测名称 / 模式
得分
排名/总数
MMLU Pro常规
60.60
91 / 111
GPQA Diamond常规
40.90
132 / 146

数学推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
MATH常规
83.80
9 / 41

常识问答

共 1 项评测
评测名称 / 模式
得分
排名/总数
SimpleQA常规
6.30
43 / 44

编程与软件工程

共 1 项评测
评测名称 / 模式
得分
排名/总数
LiveCodeBench常规
24.60
102 / 102
查看评测深度分析与其他模型对比
Gemma 3 - 12B (IT)

发布机构

Google Deep Mind
Google Deep Mind
查看发布机构详情
Gemma 3 - 12B (IT)

模型解读

Gemma 3 - 12B(IT)是Google开源的120亿参数的第三代多模态大模型。IT后缀表明这是一个经过指令微调的版本,即insturction fine-tuned。


关于Gemma 3系列详细介绍参考: https://www.datalearner.com/blog/1051741769941194 


Gemma3-12B 是 Google DeepMind 最新发布的 Gemma 3 系列模型之一,相较于 4B 版本,它在参数规模、计算能力和任务表现上进一步提升,同时保持了较好的计算效率。该模型支持 128K tokens 的长上下文处理,集成了 417M 参数的视觉编码器,并采用 知识蒸馏 进行优化,在文本生成、多模态任务和推理能力上展现出优异的性能。


模型架构与设计

  • 解码器结构与注意力机制 采用 解码器 Transformer 架构,引入 Grouped-Query Attention (GQA),结合 QK-norm 以优化注意力分布,提高计算稳定性。
  • 局部与全局注意力层交替 采用 5:1 的局部/全局注意力交替 设计,减少 KV 缓存占用,使长文本推理更高效。
  • 视觉模块 内置 417M 参数的 SigLIP 视觉编码器,支持图像输入,可用于 OCR、图文对齐等任务。

训练细节

  • 知识蒸馏:从更大模型(如 27B 版本)学习,提高文本理解和生成能力。
  • 训练数据:使用 10T tokens 进行训练,包含大规模多语言文本和图像数据。
  • 训练硬件:在 TPUv4 平台 上训练,采用 6144 个 TPU,16 数据切分、16 序列切分、24 副本。

参数配置

模型版本视觉编码器参数嵌入参数非嵌入参数上下文长度
Gemma3‑4B417M675M3209M128K tokens
Gemma3‑12B417M1012M10759M128K tokens
Gemma3‑27B417M1416M25600M128K tokens

模型特点与评测表现

  • 多模态能力:内置视觉编码器,适用于图文任务。
  • 长上下文处理:支持 128K tokens,适用于代码生成和复杂推理。
  • 计算性能平衡:比 4B 更强,比 27B 计算要求更低,适合高性能需求但资源受限的场景。

总结

Gemma3-12B 在计算能力和任务表现上比 4B 版本更强,支持多模态输入,适合需要高效推理和长文本处理的任务,同时比 27B 版本更易部署。适用于 NLP、代码生成、OCR 以及多语言任务,是当前开源 LLM 生态中的重要选择。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码