GTE-Large
Gegeral Text Embeddings - Large
模型参数
3.3亿
上下文长度
512
中文支持
不支持
推理能力
模型基本信息
推理过程
不支持
上下文长度
512 tokens
最大输出长度
暂无数据
模型类型
embedding模型
发布时间
2023-08-07
模型文件大小
670MB
MoE架构
否
总参数 / 激活参数
3.3 亿 / 不涉及
知识截止
暂无数据
推理模式
暂无模式数据
开源和体验地址
官方介绍与博客
DataLearnerAI博客
暂无介绍博客
API接口信息
接口速度
暂无数据
暂无公开的 API 定价信息。
评测得分
当前尚无可展示的评测数据。
发布机构
阿里巴巴
查看发布机构详情 模型解读
GTE全称Gegeral Text Embeddings,是阿里巴巴提出的一种文本嵌入大模型。该模型开源版本包含3:分别是3.3亿参数的Large版本、1.1亿参数的Base版本和0.3亿参数的small版本。
GTE模型支持的输入序列长度维512,输出的embedding维度是1024,对于超过序列长度的输入将会截断。GTE模型完全开源,开源协议是MIT,可以商用。不过仅支持英文。
| 模型 | 参数量 | 预训练数据量 | 预训练方式 | 微调数据量 | 微调方式 |
|---|---|---|---|---|---|
| GTE小型 | 约3000万 | 约80亿个文本对 | 无监督对比学习 | 约300万个文本三元组 | 多任务监督对比微调 |
| GTE基准 | 约1.1亿 | 约80亿个文本对 | 无监督对比学习 | 约300万个文本三元组 | 多任务监督对比微调 |
| GTE大型 | 约3.3亿 | 约80亿个文本对 | 无监督对比学习 | 约300万个文本三元组 | 多任务监督对比微调 |
DataLearner 官方微信
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
