EM

EmbeddingGemma - 300M

EmbeddingGemma - 300M

发布时间: 2025-09-05566

在线体验 GitHub Hugging Face

模型参数

3.0亿

上下文长度

2K

中文支持

支持

推理能力

模型基本信息

推理过程

不支持

上下文长度

2K tokens

最大输出长度

768 tokens

模型类型

暂无数据

发布时间

2025-09-05

模型文件大小

1.21GB

MoE架构

是

总参数 / 激活参数

3.0 亿 / 3 亿

知识截止

暂无数据

推理模式

常规模式（Non-Thinking Mode）

开源和体验地址

代码开源状态

Gemma Terms of Use

预训练权重开源

Gemma Terms of Use- 免费商用授权

GitHub 源码

暂无GitHub开源地址

Hugging Face

https://huggingface.co/google/embeddinggemma-300m

在线体验

暂无在线体验地址

官方介绍与博客

官方论文

Introducing EmbeddingGemma: The Best-in-Class Open Model for On-Device Embeddings

DataLearnerAI博客

Google DeepMind 发布 EmbeddingGemma：面向端侧的多语言开源向量模型（308M），小体量也能

API接口信息

接口速度

4/5

暂无公开的 API 定价信息。

评测得分

文本向量检索

共 1 项评测

评测名称 / 模式

得分

排名/总数

MTEBnormal

61.15

5 / 5

发布机构

Google Deep Mind

查看发布机构详情

模型解读

Google DeepMind 推出的开源多语言文本向量模型，主打端侧/离线场景，约 308M 参数，量化后可在 小于200MB内存 下运行，支持 RAG / 语义检索 / 分类 / 聚类 等。

[TOC]

EmbeddingGemma模型特点

EmbeddingGemma 是基于 Gemma 3 架构打造的全新开源多语言向量模型，专为移动端/本地离线应用而生。它以约 3.08亿参数的紧凑体量，在 RAG、语义搜索、分类、聚类等任务上提供高质量表征，同时将隐私与可用性拉满：无需联网即可在本地生成向量。

该模型基于100多种语言训练，这意味着支持大多数语种。最高输入为2K。

其核心亮点总结如下：

最佳小体量表现（<500M 开源组别）在 MTEB 多语言基准上，EmbeddingGemma 是 <500M 参数的开源文本向量模型中最高排名者；同时，其效果接近几乎两倍体量的热门模型，性价比突出。
端侧优先与离线可用量化后内存占用 <200MB，并提供 2K token 上下文，适配手机、笔电与桌面设备；与 Gemma 3n 组合，可构建完整的移动端 RAG流程，实现本地检索、本地生成与隐私优先的数据处理。
灵活的向量维度（MRL）原生 768 维输出，支持 MRL（Matryoshka Representation Learning）无重编码截断至 512/256/128 维，按需在存储/吞吐/效果间动态权衡。
工程效率与推理速度在 EdgeTPU 上，256-token 输入的嵌入生成可达 <15ms 级别的时延；并通过 QAT（量化感知训练）将运行内存压缩到 <200MB，实现实时体验与极低资源并存。
即插即用的生态整合官方已对接 sentence-transformers、llama.cpp、MLX、Ollama、LiteRT、transformers.js、LMStudio、Weaviate、Cloudflare、LlamaIndex、LangChain 等常用框架与向量/检索堆栈，开发者零门槛接入。

EmbeddingGemma的评测结果非常优秀

官方展示了其在 MTEB 多语言 v2 / 英文 v2 上相对同体量热门模型的优势：在检索、分类、聚类等多项任务下均具备同级最强的综合表现，是端侧优先场景的开源首选。想看持续更新的分数与位置，可直接前往 MTEB Leaderboard 查询最新名次。

EmbeddingGemma模型与Qwen3-Embedding-0.6B对比

除了Google发布的EmbeddingGemma外，几个月前，阿里也发布了一个端侧的向量大模型，即Qwen3-Embedding-0.6B。二者参数相差2倍，不过都是定位移动端可用的。

我们简单对比如下：

维度	EmbeddingGemma (≈308M)	Qwen3-Embedding-0.6B (≈600M)
参数规模	308M	0.6B
上下文长度	2K	32K
向量维度 / MRL	768，可截断 512/256/128	1024，支持 MRL 截断
量化后内存占用（端侧）	<200MB RAM（量化/QAT）	数百 MB 级（取决于量化与实现）
推理延迟（参考）	端侧/NPU/EdgeTPU 可达低毫秒级	需较强本地算力，端侧延迟依硬件差异较大
生态与端侧工具	已适配多款端侧与桌面推理/向量库工具	通用 PyTorch/Transformers 生态良好，端侧需裁剪/量化
MTEB Multilingual v2（Mean）	61.15	64.33
MTEB English v2（Mean）	68.36	70.70
MTEB-Code v1（Mean）	68.76	75.41

可以看到，Qwen3-Embedding-0.6B的参数量大约是2倍，性能与略高于Google的GemmaEmbedding。如果追求极致的速度，那么GemmaEmbedding还是有优势的。

GemmaEmbedding适用人群与选型建议

端侧/离线优先：移动端应用、隐私敏感检索、个人知识库搜索、边缘设备实时交互。
工程效率：希望在低资源环境中跑高质量多语言嵌入，并按需降维提速。
规模化服务端：若不受端侧约束、追求最高极致质量，可考虑 Gemini Embedding（API）。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

DataLearner 官方微信二维码