jina-embeddings-v2-small-en（jina-embeddings-v2-small-en）详细信息 | 名称、简介、使用方法，开源情况，商用授权信息

jina-embeddings-v2-small-en - jina-embeddings-v2-small-en

模型详细情况和参数

jina-embeddings-v2-small-en

模型全称: jina-embeddings-v2-small-en
模型简称: jina-embeddings-v2-small-en
模型类型: embedding模型
发布日期: 2023-10-27
预训练文件大小: 65.4MB
是否支持中文（中文优化）: 否
最高支持的上下文长度: 8K
模型参数数量（亿）: 0.33
模型代码开源协议: Apache 2.0
预训练结果开源商用情况: Apache 2.0 - 免费商用授权
模型GitHub链接: https://github.com/jina-ai/finetuner
模型HuggingFace链接: https://huggingface.co/jinaai/jina-embeddings-v2-small-en
在线演示地址: 暂无
DataLearnerAI的模型介绍
官方博客论文: Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents
基础模型: 无基础模型
发布机构: Jina AI

jina-embeddings-v2-small-en 简介

jina-embeddings-v2-small-en是Jina AI推出的一个英语单语种文本嵌入模型，具备处理长达8192个字符序列的能力。该模型基于Bert架构（称为JinaBert），并采用了对称双向ALiBi（Adaptive Length and Bidirectional）技术来增强处理更长文本序列的能力。在C4数据集上进行预训练之后，jina-embeddings-v2-small-en进一步在超过4亿的句子对上进行训练，这些句子对来自多个领域并经过了严格的筛选和清洗过程。

尽管该模型在训练阶段使用了512的序列长度，但得益于ALiBi技术，它能够推断更长的序列，甚至超过训练时的长度。这一特性使得该模型尤其适用于处理长文档的场景，如长文档检索、语义文本相似度分析、文本重排、推荐系统以及基于RAG和LLM的生成式搜索等。

该模型具有3300万个参数，这确保了在保持高性能的同时，还能实现快速和内存高效的推断。作为对比，Jina AI还提供了其他几个版本的嵌入模型，包括基于T5的jina-embeddings-v1系列和支持更长序列的jina-embeddings-v2系列的其他大小版本，为不同需求的用户提供选择。

Jina AI对jina-embeddings-v2-small-en模型的详细技术细节和性能评估均在其V2技术报告中有所披露，允许感兴趣的用户和开发者更深入地了解模型的性能和应用潜力。