jina-embeddings-v2-small-en
jina-embeddings-v2-small-en
模型参数
0.33亿
上下文长度
8K
中文支持
不支持
推理能力
模型基本信息
推理过程
不支持
上下文长度
8K tokens
最大输出长度
暂无数据
模型类型
暂无数据
发布时间
2023-10-27
模型文件大小
65.4MB
MoE架构
否
总参数 / 激活参数
0.33 亿 / 不涉及
知识截止
暂无数据
推理模式
暂无模式数据
开源和体验地址
官方介绍与博客
DataLearnerAI博客
暂无介绍博客
API接口信息
接口速度
暂无数据
暂无公开的 API 定价信息。
评测得分
当前尚无可展示的评测数据。
发布机构
Jina AI
查看发布机构详情 模型解读
jina-embeddings-v2-small-en是Jina AI推出的一个英语单语种文本嵌入模型,具备处理长达8192个字符序列的能力。该模型基于Bert架构(称为JinaBert),并采用了对称双向ALiBi(Adaptive Length and Bidirectional)技术来增强处理更长文本序列的能力。在C4数据集上进行预训练之后,jina-embeddings-v2-small-en进一步在超过4亿的句子对上进行训练,这些句子对来自多个领域并经过了严格的筛选和清洗过程。
尽管该模型在训练阶段使用了512的序列长度,但得益于ALiBi技术,它能够推断更长的序列,甚至超过训练时的长度。这一特性使得该模型尤其适用于处理长文档的场景,如长文档检索、语义文本相似度分析、文本重排、推荐系统以及基于RAG和LLM的生成式搜索等。
该模型具有3300万个参数,这确保了在保持高性能的同时,还能实现快速和内存高效的推断。作为对比,Jina AI还提供了其他几个版本的嵌入模型,包括基于T5的jina-embeddings-v1系列和支持更长序列的jina-embeddings-v2系列的其他大小版本,为不同需求的用户提供选择。
Jina AI对jina-embeddings-v2-small-en模型的详细技术细节和性能评估均在其V2技术报告中有所披露,允许感兴趣的用户和开发者更深入地了解模型的性能和应用潜力。
- 模型名称: jina-embeddings-v2-small-en
- 语言支持: 英语单语种
- 序列长度支持: 高达8192个字符
- 架构基础: 基于Bert(JinaBert)
- 特殊技术应用: 对称双向ALiBi技术支持
训练与数据
- 预训练数据集: C4数据集
- 进一步训练数据: 超过4亿的句子对及硬负例
- 域多样性: 数据覆盖多个领域,经过彻底清洗
- 训练序列长度: 使用512序列长度进行训练,但能推断至8k长度
应用场景
- 长文档处理: 长文档检索、语义文本相似度分析
- 文本处理: 文本重排、推荐系统
- 搜索引擎: RAG和LLM基于生成式搜索
性能参数
- 模型参数量: 3300万
- 推断效率: 高速且内存效率
- 性能表现: 在长序列文本处理任务中保持印象性能
模型版本对比
- V1版本(基于T5):
- V2版本(基于JinaBert,支持8k序列):
DataLearner 官方微信
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
