Ge

Gemma 3-270M

基础大模型

Gemma 3-270M

发布时间: 2025-08-14 120

模型参数(Parameters)
2.0
最高上下文长度(Context Length)
128K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

128K tokens

最长输出结果

32768 tokens

模型类型

基础大模型

发布时间

2025-08-14

模型预文件大小

536MB

推理模式
常规模式(Non-Thinking Mode)

开源和体验地址

代码开源状态
预训练权重开源
Gemma Terms of Use - 免费商用授权
GitHub 源码
暂无GitHub开源地址
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度(满分5分)
接口价格
输入价格:
  • 文本:
  • 图片:
  • 音频:
  • 视频:
  • Embedding:
输出价格:
  • 文本:
  • 图片:
  • 音频:
  • 视频:
  • Embedding:

输入支持的模态

文本

输入支持

图片

输入支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

Gemma 3-270M模型在各大评测榜单的评分

发布机构

模型介绍

Gemma 3 270M的设计核心理念是“为工作选择合适的工具”。 这意味着并非所有任务都需要一个庞大的通用模型来解决。 对于许多定义明确、高容量的任务,使用一个经过微调的小型专用模型会更高效、更快速且成本效益更高。 Gemma 3 270M正是为此类场景而生,其真正的威力在于通过微调来解锁,以极高的准确性和效率执行特定任务。

技术细节与架构

  • 紧凑而强大的架构:该模型包含2.7亿个参数,并且采用了拥有256k词元(tokens)的大词汇表,这使其在处理特定或罕见词元时表现更佳,为领域特定的微调任务提供了坚实的基础。
  • 上下文窗口:Gemma 3 270M支持8192个词元的上下文窗口,使其能够处理和理解较长的文本段落。
  • 高能效:该模型是Gemma系列中能效最高的模型之一,功耗极低,非常适合在移动设备或边缘计算等资源受限的环境中运行。

性能与量化

  • 出色的指令遵循能力:尽管模型体积小,但它在同尺寸模型中树立了新的性能标杆,能够“开箱即用”地遵循通用指令。
  • 为生产环境准备的量化:Gemma 3 270M提供了经过量化感知训练 (Quantization-Aware Trained, QAT) 的检查点。 这意味着它可以轻松地以INT4或INT8精度运行,而性能损失极小,这对于在硬件资源有限的设备上进行部署至关重要。

理想应用场景

Gemma 3 270M非常适合以下场景:

  • 高容量的特定任务:例如文本分类(如对用户评论进行分类)、摘要生成或从文档中提取特定信息。
  • 构建多个专用模型:当您需要构建多个专注于不同任务的“专家”模型时,Gemma 3 270M提供了一个高效且经济的起点。
  • 注重成本、速度和隐私:由于模型小巧且可以在本地运行,因此非常适合对成本、响应速度和用户数据隐私有较高要求的应用。

如何开始使用

开发者可以通过多种方式获取和使用Gemma 3 270M,包括:

  • 主流框架:通过Keras 3.0、JAX、PyTorch和Hugging Face均可使用。
  • 检查点:谷歌提供了预训练和经过指令调优的两种检查点。
  • 微调工具:可以利用Vertex AI的LM Tuner等工具对模型进行微调。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat