Gegeral Text Embeddings - Small
Gegeral Text Embeddings - Small is an AI model published by 阿里巴巴, released on 2023-08-07, for embedding模型, with 0.3B parameters, and 512 tokens context length, requiring about 66.8MB storage, under the MIT License license.
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
GTE全称Gegeral Text Embeddings,是阿里巴巴提出的一种文本嵌入大模型。该模型开源版本包含3:分别是3.3亿参数的Large版本、1.1亿参数的Base版本和0.3亿参数的small版本。
GTE模型支持的输入序列长度维512,输出的embedding维度是1024,对于超过序列长度的输入将会截断。GTE模型完全开源,开源协议是MIT,可以商用。不过仅支持英文。
| 模型 | 参数量 | 预训练数据量 | 预训练方式 | 微调数据量 | 微调方式 |
|---|---|---|---|---|---|
| GTE小型 | 约3000万 | 约80亿个文本对 | 无监督对比学习 | 约300万个文本三元组 | 多任务监督对比微调 |
| GTE基准 | 约1.1亿 | 约80亿个文本对 | 无监督对比学习 | 约300万个文本三元组 | 多任务监督对比微调 |
| GTE大型 | 约3.3亿 | 约80亿个文本对 | 无监督对比学习 | 约300万个文本三元组 | 多任务监督对比微调 |
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
