DataLearner logoDataLearnerAI
Latest AI Insights
Model Evaluations
Model Directory
Model Comparison
Resource Center
Tool Directory

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
Page navigation
目录
Model catalogGemma 3 - 12B (IT)
GE

Gemma 3 - 12B (IT)

Gemma 3 - 12B (IT)

Release date: 2025-03-12更新于: 2025-03-12 22:14:181,291
Live demoGitHubHugging FaceCompare
Parameters
120.0亿
Context length
128K
Chinese support
Supported
Reasoning ability

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Gemma 3 - 12B (IT)

Model basics

Reasoning traces
Not supported
Thinking modes
Thinking modes not supported
Context length
128K tokens
Max output length
No data
Model type
基础大模型
Release date
2025-03-12
Model file size
2GB
MoE architecture
No
Total params / Active params
120.0B / N/A
Knowledge cutoff
No data
Gemma 3 - 12B (IT)

Open source & experience

Code license
Gemma Terms of Use
Weights license
Gemma Terms of Use- 免费商用授权
GitHub repo
GitHub link unavailable
Hugging Face
https://huggingface.co/google/gemma-3-1b-it
Live demo
No live demo
Gemma 3 - 12B (IT)

Official resources

Paper
Gemma 3 Technical Report
DataLearnerAI blog
No blog post yet
Gemma 3 - 12B (IT)

API details

API speed
No data
No public API pricing yet.
Gemma 3 - 12B (IT)

Benchmark Results

Thinking

综合评估

2 evaluations
Benchmark / mode
Score
Rank/total
MMLU Pro
default
60.60
94 / 114
GPQA Diamond
default
40.90
144 / 158

数学推理

1 evaluations
Benchmark / mode
Score
Rank/total
MATH
default
83.80
9 / 41

常识问答

1 evaluations
Benchmark / mode
Score
Rank/total
SimpleQA
default
6.30
43 / 44

编程与软件工程

1 evaluations
Benchmark / mode
Score
Rank/total
LiveCodeBench
default
24.60
105 / 105
查看评测深度分析与其他模型对比
Gemma 3 - 12B (IT)

Publisher

Google Deep Mind
Google Deep Mind
View publisher details
Gemma 3 - 12B (IT)

Model Overview

Gemma 3 - 12B(IT)是Google开源的120亿参数的第三代多模态大模型。IT后缀表明这是一个经过指令微调的版本,即insturction fine-tuned。


关于Gemma 3系列详细介绍参考: https://www.datalearner.com/blog/1051741769941194 


Gemma3-12B 是 Google DeepMind 最新发布的 Gemma 3 系列模型之一,相较于 4B 版本,它在参数规模、计算能力和任务表现上进一步提升,同时保持了较好的计算效率。该模型支持 128K tokens 的长上下文处理,集成了 417M 参数的视觉编码器,并采用 知识蒸馏 进行优化,在文本生成、多模态任务和推理能力上展现出优异的性能。


模型架构与设计

  • 解码器结构与注意力机制 采用 解码器 Transformer 架构,引入 Grouped-Query Attention (GQA),结合 QK-norm 以优化注意力分布,提高计算稳定性。
  • 局部与全局注意力层交替 采用 5:1 的局部/全局注意力交替 设计,减少 KV 缓存占用,使长文本推理更高效。
  • 视觉模块 内置 417M 参数的 SigLIP 视觉编码器,支持图像输入,可用于 OCR、图文对齐等任务。

训练细节

  • 知识蒸馏:从更大模型(如 27B 版本)学习,提高文本理解和生成能力。
  • 训练数据:使用 10T tokens 进行训练,包含大规模多语言文本和图像数据。
  • 训练硬件:在 TPUv4 平台 上训练,采用 6144 个 TPU,16 数据切分、16 序列切分、24 副本。

参数配置

模型版本视觉编码器参数嵌入参数非嵌入参数上下文长度
Gemma3‑4B417M675M3209M128K tokens
Gemma3‑12B417M1012M10759M128K tokens
Gemma3‑27B417M1416M25600M128K tokens

模型特点与评测表现

  • 多模态能力:内置视觉编码器,适用于图文任务。
  • 长上下文处理:支持 128K tokens,适用于代码生成和复杂推理。
  • 计算性能平衡:比 4B 更强,比 27B 计算要求更低,适合高性能需求但资源受限的场景。

总结

Gemma3-12B 在计算能力和任务表现上比 4B 版本更强,支持多模态输入,适合需要高效推理和长文本处理的任务,同时比 27B 版本更易部署。适用于 NLP、代码生成、OCR 以及多语言任务,是当前开源 LLM 生态中的重要选择。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码