GE

Gemma 3-270M

基础大模型GemmaGemma 3

Gemma 3-270M

发布时间: 2025-08-14更新于: 2025-08-15 08:55:521,604
在线体验GitHubHugging FaceCompare
模型参数
2亿
上下文长度
128K
中文支持
支持
推理能力

Gemma 3-270M 是由 Google Deep Mind 发布的 AI 模型,发布时间为 2025-08-14,定位为 基础大模型,参数规模约为 2亿,上下文长度为 128K,模型文件大小约 536MB,采用 Gemma Terms of Use 许可。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

Gemma 3-270M

模型基本信息

推理过程
不支持
思考模式
不支持思考模式
上下文长度
128K tokens
最大输出长度
32K tokens
模型类型
基础大模型
输入/输出模态
文本、图像 → 文本
发布时间
2025-08-14
模型文件大小
536MB
MoE架构
总参数 / 激活参数
2亿 / 3亿
知识截止
暂无数据
Gemma 3-270M

开源和体验地址

代码开源状态
预训练权重开源
Gemma Terms of Use- 免费商用授权
GitHub 源码
暂无GitHub开源地址
在线体验
暂无在线体验地址
Gemma 3-270M

官方介绍与博客

DataLearnerAI博客
暂无介绍博客
Gemma 3-270M

API接口信息

接口速度
4/5
暂无公开的 API 定价信息。
Gemma 3-270M

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合?打开对比工具

Gemma 3-270M

发布机构

Gemma 3-270M

模型解读

Gemma 3 270M的设计核心理念是“为工作选择合适的工具”。 这意味着并非所有任务都需要一个庞大的通用模型来解决。 对于许多定义明确、高容量的任务,使用一个经过微调的小型专用模型会更高效、更快速且成本效益更高。 Gemma 3 270M正是为此类场景而生,其真正的威力在于通过微调来解锁,以极高的准确性和效率执行特定任务。

技术细节与架构

  • 紧凑而强大的架构:该模型包含2.7亿个参数,并且采用了拥有256k词元(tokens)的大词汇表,这使其在处理特定或罕见词元时表现更佳,为领域特定的微调任务提供了坚实的基础。
  • 上下文窗口:Gemma 3 270M支持8192个词元的上下文窗口,使其能够处理和理解较长的文本段落。
  • 高能效:该模型是Gemma系列中能效最高的模型之一,功耗极低,非常适合在移动设备或边缘计算等资源受限的环境中运行。

性能与量化

  • 出色的指令遵循能力:尽管模型体积小,但它在同尺寸模型中树立了新的性能标杆,能够“开箱即用”地遵循通用指令。
  • 为生产环境准备的量化:Gemma 3 270M提供了经过量化感知训练 (Quantization-Aware Trained, QAT) 的检查点。 这意味着它可以轻松地以INT4或INT8精度运行,而性能损失极小,这对于在硬件资源有限的设备上进行部署至关重要。

理想应用场景

Gemma 3 270M非常适合以下场景:

  • 高容量的特定任务:例如文本分类(如对用户评论进行分类)、摘要生成或从文档中提取特定信息。
  • 构建多个专用模型:当您需要构建多个专注于不同任务的“专家”模型时,Gemma 3 270M提供了一个高效且经济的起点。
  • 注重成本、速度和隐私:由于模型小巧且可以在本地运行,因此非常适合对成本、响应速度和用户数据隐私有较高要求的应用。

如何开始使用

开发者可以通过多种方式获取和使用Gemma 3 270M,包括:

  • 主流框架:通过Keras 3.0、JAX、PyTorch和Hugging Face均可使用。
  • 检查点:谷歌提供了预训练和经过指令调优的两种检查点。
  • 微调工具:可以利用Vertex AI的LM Tuner等工具对模型进行微调。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码