jina-embeddings-v2-small-en - jina-embeddings-v2-small-en

模型详细情况和参数

jina-embeddings-v2-small-en

模型全称
jina-embeddings-v2-small-en
模型简称
jina-embeddings-v2-small-en
模型类型
embedding模型
发布日期
2023-10-27
预训练文件大小
65.4MB
是否支持中文(中文优化)
最高支持的上下文长度
8K
模型参数数量(亿)
0.33
模型代码开源协议
Apache 2.0
预训练结果开源商用情况
Apache 2.0 - 免费商用授权
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
无基础模型
发布机构

jina-embeddings-v2-small-en 简介

jina-embeddings-v2-small-en是Jina AI推出的一个英语单语种文本嵌入模型,具备处理长达8192个字符序列的能力。该模型基于Bert架构(称为JinaBert),并采用了对称双向ALiBi(Adaptive Length and Bidirectional)技术来增强处理更长文本序列的能力。在C4数据集上进行预训练之后,jina-embeddings-v2-small-en进一步在超过4亿的句子对上进行训练,这些句子对来自多个领域并经过了严格的筛选和清洗过程。

尽管该模型在训练阶段使用了512的序列长度,但得益于ALiBi技术,它能够推断更长的序列,甚至超过训练时的长度。这一特性使得该模型尤其适用于处理长文档的场景,如长文档检索、语义文本相似度分析、文本重排、推荐系统以及基于RAG和LLM的生成式搜索等。

该模型具有3300万个参数,这确保了在保持高性能的同时,还能实现快速和内存高效的推断。作为对比,Jina AI还提供了其他几个版本的嵌入模型,包括基于T5的jina-embeddings-v1系列和支持更长序列的jina-embeddings-v2系列的其他大小版本,为不同需求的用户提供选择。

Jina AI对jina-embeddings-v2-small-en模型的详细技术细节和性能评估均在其V2技术报告中有所披露,允许感兴趣的用户和开发者更深入地了解模型的性能和应用潜力。



  • 模型名称: jina-embeddings-v2-small-en
  • 语言支持: 英语单语种
  • 序列长度支持: 高达8192个字符
  • 架构基础: 基于Bert(JinaBert)
  • 特殊技术应用: 对称双向ALiBi技术支持

训练与数据

  • 预训练数据集: C4数据集
  • 进一步训练数据: 超过4亿的句子对及硬负例
  • 域多样性: 数据覆盖多个领域,经过彻底清洗
  • 训练序列长度: 使用512序列长度进行训练,但能推断至8k长度

应用场景

  • 长文档处理: 长文档检索、语义文本相似度分析
  • 文本处理: 文本重排、推荐系统
  • 搜索引擎: RAG和LLM基于生成式搜索

性能参数

  • 模型参数量: 3300万
  • 推断效率: 高速且内存效率
  • 性能表现: 在长序列文本处理任务中保持印象性能

模型版本对比

  • V1版本(基于T5):
  • V2版本(基于JinaBert,支持8k序列):

欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

jina-embeddings-v2-small-en所属的领域
自然语言处理

自然语言处理

Natural Language Process

35个资源

jina-embeddings-v2-small-en相关的任务
文本嵌入

文本嵌入

Embedding

35个资源