开源界最新力作!230万篇arXiv的论文标题和摘要的所有embeddings向量数据集免费开放!
由于当前大语言模型在输入长度和记忆上的限制,对于过长的输入以及多轮对话(很多次的对话)来说都无法很好的支持。Embeddings作为一种可以保存语义的实值向量,可以有效地缓解大语言模型的诸多限制。甚至OpenAI在官方教程中也专门出了一期教大家如何用embedding来解决大模型长输入的问题:https://www.datalearner.com/blog/1051681543488862 。

然而奇怪的是,相比较大量的大语言模型的开源数据集,业界并没有很多embedding数据的开放。目前可能是最强的embedding抽取模型——OpenAI的embeddings(别奇怪,它的模型就叫这个名字)也是一个收费的模型。今天,一位年仅20岁的小哥willdepue 开源了230万arXiv论文的标题和摘要的embedding向量数据集,完全开源。
Alexandria项目
此次开源的arXiv的标题和摘要embeddings属于Alexandria项目的一部分。这个项目的目标是将互联网的数据集变成embeddings。而arXiv论文标题和摘要是第一部分。并表示未来将开源更多的数据集。

