BGE-M3-Embedding（BGE-M3-Embedding）详细信息 | 名称、简介、使用方法，开源情况，商用授权信息 | DataLearnerAI

BG

BGE-M3-Embedding

BGE-M3-Embedding

发布时间: 2024-01-30更新于: 2024-02-01 23:26:23.7451,317

在线体验GitHub Hugging Face Compare

模型参数

1.13亿

上下文长度

8K

中文支持

支持

推理能力

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

BGE-M3-Embedding

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

8K tokens

最大输出长度

暂无数据

模型类型

BGE-M3-Embedding

开源和体验地址

代码开源状态

预训练权重开源

MIT License- 免费商用授权

GitHub 源码

https://github.com/FlagOpen/FlagEmbedding/tree/master/FlagEmbedding/BGE_M3

Hugging Face

https://huggingface.co/BAAI/bge-m3

BGE-M3-Embedding

官方介绍与博客

官方论文

BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation

DataLearnerAI博客

暂无介绍博客

BGE-M3-Embedding

API接口信息

接口速度

暂无数据

暂无公开的 API 定价信息。

BGE-M3-Embedding

评测结果

当前尚无可展示的评测数据。

BGE-M3-Embedding

发布机构

北京智源人工智能研究院

查看发布机构详情

BGE-M3-Embedding

模型解读

BGE-M3-Embedding是北京智源人工智能研究院开源的一个最新的Embedding大模型，最大的特点是功能很多，体现在三个层面，包括支持100多种语言、支持短句到长文（最高8K输入）、以及支持多种不同的功能。

BGE-M3-Embedding是在三类数据上训练得到，分别是从无监督数据集种获取弱监督数据、有标签数据集中获得的微调数据以及用人工合成的数据。其中，弱监督数据集包含了11亿多语种的数据集，而微调数据集人工挑选的具有丰富语义结构的数据。

为了让BGE-M3-Embedding向量大模型有更多的能力，BAAI研究人员提出了一种self-knowledge distill技术，让模型可以一次学习多个目标。具体来说，BGE-M3-Embedding有如下能力：

支持100多种语言：除了英文和中文外，还支持德语、俄语、西班牙语等。此外，就中文来说，在简体中文、中文（香港）和中文（台湾）不同地区的语言表现也很好。
跨语种表现良好：BGE-M3-Embedding支持跨语种检索，输入非英语的查询，基于英文结果检索匹配的MKQA评测中效果超过OpenAI的text-embedding-3
支持不同长度的Embedding提取：前面说了BGE-M3-Embedding最高支持8K的输入，但是它在短句和长文上表现都不错。长文本测评MLDR等表现上超过了JinaEmbedding、OpenAI的text-embedding-3等。
支持密集向量检索（输出指定长度的向量，如1024）、稀疏检索（向量长度等于词汇表长度）以及多向量检索。输入序列长度最高8192，输出向量维度1024。

BAAI在之前也开源过BGE系列的向量大模型，取得了非常好的口碑。而此次发布的BGE-M3-Embedding比之前的BGE系列更强。从输入序列长度和输出的向量维度来看都有更大的进步。虽然官方目前没有公布在MTEB的成绩，但是也在多个不同测评上做了对比，详情可参考论文。

Model Name	Dimension	Sequence Length
BAAI/bge-m3	1024	8192
BAAI/bge-large-en-v1.5	1024	512
BAAI/bge-base-en-v1.5	768	512
BAAI/bge-small-en-v1.5	384	512

BGE-M3-Embedding以MIT协议开源，代码和预训练结果均无条件商用授权。

BGE-M3-Embedding在不同语言上和其它模型的对比结果：

另外，BGE-M3-Embedding有2个版本，一个是在大量数据做 contrastive learning之后得到的一个无监督版本（bge-m3-unsupervised，参考： https://www.datalearner.com/ai-models/pretrained-models/BGE-M3-Embedding-Unsupervised ），另一个是基于这个无监督版本微调得到的，就是本模型。

BGE-M3-Embedding支持继续微调，详情参考： https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/finetune

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

DataLearner 官方微信二维码