Embedding开源模型重磅玩家：北京智源人工智能研究院最新Embedding模型发布！登顶MTEB，免费商用授权！

加载中...

Embedding开源模型重磅玩家：北京智源人工智能研究院最新Embedding模型发布！登顶MTEB，免费商用授权！ | DataLearnerAI

Model	Embedding dimension	Avg	Retrieval	STS	PairClassification	Classification	Reranking	Clustering
bge-large-zh	1024	64.20	71.53	53.23	78.94	72.26	65.11	48.39
bge-large-zh-noinstruct	1024	63.53	70.55	50.98	76.77	72.49	64.91	50.01
BAAI/bge-base-zh	768	62.96	69.53	52.05	77.5	70.98

from sentence_transformers import SentenceTransformer
sentences = ["样例数据-1", "样例数据-2"]
model = SentenceTransformer('BAAI/bge-large-zh')
embeddings_1 = model.encode(sentences, normalize_embeddings=True)
embeddings_2 = model.encode(sentences, normalize_embeddings=True)
smilarity = embeddings_1 @ embeddings_2.T
print(smilarity)

from langchain.embeddings import HuggingFaceInstructEmbeddings
encode_kwargs = {'normalize_embeddings': True}
model = HuggingFaceInstructEmbeddings(
    model_name='BAAI/bge-large-en', 
    embed_instruction="", 
	query_instruction="Represent this sentence for searching relevant passages: ",
	encode_kwargs=encode_kwargs
)

Embedding开源模型重磅玩家：北京智源人工智能研究院最新Embedding模型发布！登顶MTEB，免费商用授权！

DataLearner WeChat

Embedding模型的重要性

BGE系列Embedding模型介绍和训练细节

BGE系列Embedding模型的效果

BGE系列Embedding模型的使用

BGE系列的Embedding模型的总结

Hot Blogs