BG

BGE-Large-zh

BAAI General Embedding - Large - zh

发布时间: 2023-08-021,135
模型参数
3.0亿
上下文长度
0.512K
中文支持
支持
推理能力

模型基本信息

推理过程
不支持
上下文长度
0.512K tokens
最大输出长度
暂无数据
模型类型
暂无数据
发布时间
2023-08-02
模型文件大小
1.3GB
MoE架构
总参数 / 激活参数
3.0 亿 / 不涉及
知识截止
暂无数据
推理模式
暂无模式数据

开源和体验地址

代码开源状态
预训练权重开源
MIT License- 免费商用授权
在线体验
暂无在线体验地址

官方介绍与博客

DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。

评测得分

当前尚无可展示的评测数据。

发布机构

北京智源人工智能研究院
查看发布机构详情

模型解读

BAAI General Embedding是北京智源人工智能研究院开源的一系列embedding大模型,简称BGE,支持中文和英文的embedding。这里的BGE-Large-zh是BGE系列中参数规模最大的中文向量大模型,参数3.26亿。输入序列512,输出维度1024。


BGE-Large-zh模型是基于BERT-like架构,特别是在特殊的[CLS]标记的最后一层隐藏状态被训练来作为文本的嵌入表示。这种架构允许模型捕获文本中的丰富语义信息,并将其压缩到一个固定大小的向量中,这对于许多下游任务(如文本检索、分类和聚类)至关重要。


BGE-Large-zh模型的评测结果

 在C-MTEB(一项综合评估中文文本嵌入通用性的基准)上,BGE-Large-zh模型在各项任务中均表现出色,平均性能达到63.96%。特别是在检索、语义文本相似性(STS)、配对分类和重排序任务上,该模型显示了明显的优势,这证明了其优越的通用性和鲁棒性。超越了当前所有的中文向量大模型。


下图是BGE-Large-Zh和其它中文向量大模型在C-MTEB上的评测结果。所有的得分均为最高!

模型DimRetrievalSTSPair CLFCLFRe-rankClusterAverage
Text2Vec (base)76838.7943.4167.4162.1949.4537.6648.59
Text2Vec (large)102441.9444.9770.8660.6649.1630.0248.56
Luotuo (large)102444.4042.7966.6261.049.2544.3950.12
M3E (base)76856.9150.4763.9967.5259.3447.6857.79
M3E (large)102454.7550.4264.3068.2059.6648.8857.66
Multi. E5 (base)76861.6346.4967.0765.3554.3540.6856.21
Multi. E5 (large)102463.6648.4469.8967.3456.0048.2358.84
OpenAI-Ada-002153652.0043.3569.5664.3154.2845.6853.02
BGE (small)51263.0749.4570.3563.6461.4845.0958.28
BGE (base)76869.5354.1277.5067.0764.9147.6362.80
BGE (large)102471.5354.9878.9468.3265.1148.3963.96


BGE-Large-zh模型训练的数据集

BGE-Large-zh模型使用C-MTP(Chinese Massive Text Pairs)作为训练数据,该数据集包括100M(1亿)文本对。C-MTP综合了标注数据和未标注数据,来自于多种来源,如Wudao语料库、科学文献、XLSUM-Zh、Wiki-Atomic-Edit、AmazonReviews-Zh等,确保了数据的大规模、多样性和质量。


BGE系列模型在论文中也成为C-TEM系列模型,但BGE更为著名。C-TEM全称是Chinese Text Embedding Models。


BGE-Large-zh模型开源情况

效果很好,重要的BGE-Large-zh是免费商用授权!

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码