BGE-Large-zh - BAAI General Embedding - Large - zh

模型详细情况和参数

BGE-Large-zh

模型全称
BAAI General Embedding - Large - zh
模型简称
BGE-Large-zh
模型类型
embedding模型
发布日期
2023-08-02
预训练文件大小
1.3GB
是否支持中文(中文优化)
最高支持的上下文长度
0.512K
模型参数数量(亿)
3.0
模型代码开源协议
MIT License
预训练结果开源商用情况
MIT License - 免费商用授权
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
无基础模型

BAAI General Embedding - Large - zh 简介

BAAI General Embedding是北京智源人工智能研究院开源的一系列embedding大模型,简称BGE,支持中文和英文的embedding。这里的BGE-Large-zh是BGE系列中参数规模最大的中文向量大模型,参数3.26亿。输入序列512,输出维度1024。


BGE-Large-zh模型是基于BERT-like架构,特别是在特殊的[CLS]标记的最后一层隐藏状态被训练来作为文本的嵌入表示。这种架构允许模型捕获文本中的丰富语义信息,并将其压缩到一个固定大小的向量中,这对于许多下游任务(如文本检索、分类和聚类)至关重要。


BGE-Large-zh模型的评测结果

 在C-MTEB(一项综合评估中文文本嵌入通用性的基准)上,BGE-Large-zh模型在各项任务中均表现出色,平均性能达到63.96%。特别是在检索、语义文本相似性(STS)、配对分类和重排序任务上,该模型显示了明显的优势,这证明了其优越的通用性和鲁棒性。超越了当前所有的中文向量大模型。


下图是BGE-Large-Zh和其它中文向量大模型在C-MTEB上的评测结果。所有的得分均为最高!

模型DimRetrievalSTSPair CLFCLFRe-rankClusterAverage
Text2Vec (base)76838.7943.4167.4162.1949.4537.6648.59
Text2Vec (large)102441.9444.9770.8660.6649.1630.0248.56
Luotuo (large)102444.4042.7966.6261.049.2544.3950.12
M3E (base)76856.9150.4763.9967.5259.3447.6857.79
M3E (large)102454.7550.4264.3068.2059.6648.8857.66
Multi. E5 (base)76861.6346.4967.0765.3554.3540.6856.21
Multi. E5 (large)102463.6648.4469.8967.3456.0048.2358.84
OpenAI-Ada-002153652.0043.3569.5664.3154.2845.6853.02
BGE (small)51263.0749.4570.3563.6461.4845.0958.28
BGE (base)76869.5354.1277.5067.0764.9147.6362.80
BGE (large)102471.5354.9878.9468.3265.1148.3963.96


BGE-Large-zh模型训练的数据集

BGE-Large-zh模型使用C-MTP(Chinese Massive Text Pairs)作为训练数据,该数据集包括100M(1亿)文本对。C-MTP综合了标注数据和未标注数据,来自于多种来源,如Wudao语料库、科学文献、XLSUM-Zh、Wiki-Atomic-Edit、AmazonReviews-Zh等,确保了数据的大规模、多样性和质量。


BGE系列模型在论文中也成为C-TEM系列模型,但BGE更为著名。C-TEM全称是Chinese Text Embedding Models。


BGE-Large-zh模型开源情况

效果很好,重要的BGE-Large-zh是免费商用授权!

欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

BGE-Large-zh所属的领域
自然语言处理

自然语言处理

Natural Language Process

35个资源

BGE-Large-zh相关的任务
文本嵌入

文本嵌入

Embedding

35个资源