jina-embeddings-v2-small-en
jina-embeddings-v2-small-en is an AI model published by Jina AI, released on 2023-10-27, for embedding模型, with 0.33B parameters, and 8K tokens context length, requiring about 65.4MB storage, under the Apache 2.0 license.
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
jina-embeddings-v2-small-en是Jina AI推出的一个英语单语种文本嵌入模型,具备处理长达8192个字符序列的能力。该模型基于Bert架构(称为JinaBert),并采用了对称双向ALiBi(Adaptive Length and Bidirectional)技术来增强处理更长文本序列的能力。在C4数据集上进行预训练之后,jina-embeddings-v2-small-en进一步在超过4亿的句子对上进行训练,这些句子对来自多个领域并经过了严格的筛选和清洗过程。
尽管该模型在训练阶段使用了512的序列长度,但得益于ALiBi技术,它能够推断更长的序列,甚至超过训练时的长度。这一特性使得该模型尤其适用于处理长文档的场景,如长文档检索、语义文本相似度分析、文本重排、推荐系统以及基于RAG和LLM的生成式搜索等。
该模型具有3300万个参数,这确保了在保持高性能的同时,还能实现快速和内存高效的推断。作为对比,Jina AI还提供了其他几个版本的嵌入模型,包括基于T5的jina-embeddings-v1系列和支持更长序列的jina-embeddings-v2系列的其他大小版本,为不同需求的用户提供选择。
Jina AI对jina-embeddings-v2-small-en模型的详细技术细节和性能评估均在其V2技术报告中有所披露,允许感兴趣的用户和开发者更深入地了解模型的性能和应用潜力。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
