BGE-M3-Embedding
BGE-M3-Embedding is an AI model published by 北京智源人工智能研究院, released on 2024-01-30, for embedding模型, with 1.13B parameters, and 8K tokens context length, requiring about 2.27GB storage, under the MIT License license.
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
BGE-M3-Embedding是北京智源人工智能研究院开源的一个最新的Embedding大模型,最大的特点是功能很多,体现在三个层面,包括支持100多种语言、支持短句到长文(最高8K输入)、以及支持多种不同的功能。
BGE-M3-Embedding是在三类数据上训练得到,分别是从无监督数据集种获取弱监督数据、有标签数据集中获得的微调数据以及用人工合成的数据。其中,弱监督数据集包含了11亿多语种的数据集,而微调数据集人工挑选的具有丰富语义结构的数据。
为了让BGE-M3-Embedding向量大模型有更多的能力,BAAI研究人员提出了一种self-knowledge distill技术,让模型可以一次学习多个目标。具体来说,BGE-M3-Embedding有如下能力:
BAAI在之前也开源过BGE系列的向量大模型,取得了非常好的口碑。而此次发布的BGE-M3-Embedding比之前的BGE系列更强。从输入序列长度和输出的向量维度来看都有更大的进步。虽然官方目前没有公布在MTEB的成绩,但是也在多个不同测评上做了对比,详情可参考论文。
| Model Name | Dimension | Sequence Length |
|---|---|---|
| BAAI/bge-m3 | 1024 | 8192 |
| BAAI/bge-large-en-v1.5 | 1024 | 512 |
| BAAI/bge-base-en-v1.5 | 768 | 512 |
| BAAI/bge-small-en-v1.5 | 384 | 512 |
BGE-M3-Embedding以MIT协议开源,代码和预训练结果均无条件商用授权。
BGE-M3-Embedding在不同语言上和其它模型的对比结果:

另外,BGE-M3-Embedding有2个版本,一个是在大量数据做 contrastive learning之后得到的一个无监督版本(bge-m3-unsupervised,参考: https://www.datalearner.com/ai-models/pretrained-models/BGE-M3-Embedding-Unsupervised ),另一个是基于这个无监督版本微调得到的,就是本模型。
BGE-M3-Embedding支持继续微调,详情参考: https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/finetune
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
