EmbeddingGemma - 300M
EmbeddingGemma - 300M is an AI model published by Google Deep Mind, released on 2025-09-05, for embedding模型, with 3.0B parameters, and 2K tokens context length, requiring about 1.21GB storage, under the Gemma Terms of Use license.
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
EmbeddingGemma - 300M currently shows benchmark results led by MTEB (5 / 5, score 61.15). This page also consolidates core specs, context limits, and API pricing so you can evaluate the model from benchmark results and deployment constraints together.
Google DeepMind 推出的开源多语言文本向量模型,主打端侧/离线场景,约 308M 参数,量化后可在 小于200MB内存 下运行,支持 RAG / 语义检索 / 分类 / 聚类 等。
[TOC]
EmbeddingGemma 是基于 Gemma 3 架构打造的全新开源多语言向量模型,专为移动端/本地离线应用而生。它以约 3.08亿参数的紧凑体量,在 RAG、语义搜索、分类、聚类等任务上提供高质量表征,同时将隐私与可用性拉满:无需联网即可在本地生成向量。
该模型基于100多种语言训练,这意味着支持大多数语种。最高输入为2K。
其核心亮点总结如下:
官方展示了其在 MTEB 多语言 v2 / 英文 v2 上相对同体量热门模型的优势:在检索、分类、聚类等多项任务下均具备同级最强的综合表现,是端侧优先场景的开源首选。想看持续更新的分数与位置,可直接前往 MTEB Leaderboard 查询最新名次。
除了Google发布的EmbeddingGemma外,几个月前,阿里也发布了一个端侧的向量大模型,即Qwen3-Embedding-0.6B。二者参数相差2倍,不过都是定位移动端可用的。
我们简单对比如下:
| 维度 | EmbeddingGemma (≈308M) | Qwen3-Embedding-0.6B (≈600M) |
|---|---|---|
| 参数规模 | 308M | 0.6B |
| 上下文长度 | 2K | 32K |
| 向量维度 / MRL | 768,可截断 512/256/128 | 1024,支持 MRL 截断 |
| 量化后内存占用(端侧) | <200MB RAM(量化/QAT) | 数百 MB 级(取决于量化与实现) |
| 推理延迟(参考) | 端侧/NPU/EdgeTPU 可达低毫秒级 | 需较强本地算力,端侧延迟依硬件差异较大 |
| 生态与端侧工具 | 已适配多款端侧与桌面推理/向量库工具 | 通用 PyTorch/Transformers 生态良好,端侧需裁剪/量化 |
| MTEB Multilingual v2(Mean) | 61.15 | 64.33 |
| MTEB English v2(Mean) | 68.36 | 70.70 |
| MTEB-Code v1(Mean) | 68.76 | 75.41 |
可以看到,Qwen3-Embedding-0.6B的参数量大约是2倍,性能与略高于Google的GemmaEmbedding。如果追求极致的速度,那么GemmaEmbedding还是有优势的。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
