EmbeddingGemma - 300M
不支持
2K tokens
768 tokens
embedding模型
2025-09-05
1.21GB
Google DeepMind 推出的开源多语言文本向量模型,主打端侧/离线场景,约 308M 参数,量化后可在 小于200MB内存 下运行,支持 RAG / 语义检索 / 分类 / 聚类 等。
[TOC]
EmbeddingGemma 是基于 Gemma 3 架构打造的全新开源多语言向量模型,专为移动端/本地离线应用而生。它以约 3.08亿参数的紧凑体量,在 RAG、语义搜索、分类、聚类等任务上提供高质量表征,同时将隐私与可用性拉满:无需联网即可在本地生成向量。
该模型基于100多种语言训练,这意味着支持大多数语种。最高输入为2K。
其核心亮点总结如下:
官方展示了其在 MTEB 多语言 v2 / 英文 v2 上相对同体量热门模型的优势:在检索、分类、聚类等多项任务下均具备同级最强的综合表现,是端侧优先场景的开源首选。想看持续更新的分数与位置,可直接前往 MTEB Leaderboard 查询最新名次。
除了Google发布的EmbeddingGemma外,几个月前,阿里也发布了一个端侧的向量大模型,即Qwen3-Embedding-0.6B。二者参数相差2倍,不过都是定位移动端可用的。
我们简单对比如下:
| 维度 | EmbeddingGemma (≈308M) | Qwen3-Embedding-0.6B (≈600M) |
|---|---|---|
| 参数规模 | 308M | 0.6B |
| 上下文长度 | 2K | 32K |
| 向量维度 / MRL | 768,可截断 512/256/128 | 1024,支持 MRL 截断 |
| 量化后内存占用(端侧) | <200MB RAM(量化/QAT) | 数百 MB 级(取决于量化与实现) |
| 推理延迟(参考) | 端侧/NPU/EdgeTPU 可达低毫秒级 | 需较强本地算力,端侧延迟依硬件差异较大 |
| 生态与端侧工具 | 已适配多款端侧与桌面推理/向量库工具 | 通用 PyTorch/Transformers 生态良好,端侧需裁剪/量化 |
| MTEB Multilingual v2(Mean) | 61.15 | 64.33 |
| MTEB English v2(Mean) | 68.36 | 70.70 |
| MTEB-Code v1(Mean) | 68.76 | 75.41 |
可以看到,Qwen3-Embedding-0.6B的参数量大约是2倍,性能与略高于Google的GemmaEmbedding。如果追求极致的速度,那么GemmaEmbedding还是有优势的。
关注DataLearnerAI微信公众号,接受最新大模型资讯