开源界最新力作！230万篇arXiv的论文标题和摘要的所有embeddings向量数据集免费开放！

由于当前大语言模型在输入长度和记忆上的限制，对于过长的输入以及多轮对话（很多次的对话）来说都无法很好的支持。Embeddings作为一种可以保存语义的实值向量，可以有效地缓解大语言模型的诸多限制。甚至OpenAI在官方教程中也专门出了一期教大家如何用embedding来解决大模型长输入的问题：https://www.datalearner.com/blog/1051681543488862。

然而奇怪的是，相比较大量的大语言模型的开源数据集，业界并没有很多embedding数据的开放。目前可能是最强的embedding抽取模型——OpenAI的embeddings（别奇怪，它的模型就叫这个名字）也是一个收费的模型。今天，一位年仅20岁的小哥willdepue 开源了230万arXiv论文的标题和摘要的embedding向量数据集，完全开源。

Alexandria项目

此次开源的arXiv的标题和摘要embeddings属于Alexandria项目的一部分。这个项目的目标是将互联网的数据集变成embeddings。而arXiv论文标题和摘要是第一部分。并表示未来将开源更多的数据集。

全球很多问题都可以归纳为搜索、聚类、推荐或者分类。而embeddings都可以在问题中发挥巨大的价值。在机器学习和自然语言处理中，embedding是指将高维度的数据（例如文字、图片、音频）映射到低维度空间的过程。embedding向量通常是一个由实数构成的向量，它将输入的数据表示成一个连续的数值空间中的点。

简单来说，embedding就是一个N维的实值向量，它几乎可以用来表示任何事情，如文本、音乐、视频等。而embedding重要的原因在于它可以表示单词或者语句的语义。实值向量的embedding可以表示单词的语义，主要是因为这些embedding向量是根据单词在语言上下文中的出现模式进行学习的。

此外，embeddings也是一个一次性的成本投入，并且十分便宜。以OpenAI的embeddings为例，text-embedding-ada-002的价格是1美元250万个tokens，约187.5万个英文单词！

尽管embeddings价值巨大且很便宜，但是开源的embeddings数据集却几乎没有。因此，小哥做了这个项目。

Alexandria开源的arXiv论文embeddings数据集

此次开源的arXiv数据集包括2个部分，一个是论文标题的embeddings，一个是论文摘要的embeddings，这个大概也是因为这两个部分可能避免版权的问题。具体如下：

数据集名称	数据集大小	论文数	数据时间	下载地址
arXiv论文标题embeddings	6.5GB	230万	2023/5/4	arXiv标题embeddings下载
arXiv论文摘要embeddings	7.6GB	230万	2023/5/4	arXiv论文摘要embeddings下载

上述数据均使用Instructor XL模型抽取。这是基于Apache2.0开源的embedding模型：https://huggingface.co/hkunlp/instructor-xl

此外，小哥还透露下周将公开基于这个embedding数据集做的arXiv论文检索。

总结

这份arXiv的论文标题和摘要的embeddings数据集的开源在twitter上引起了很大的关注。原文发布不到24小时已经有80多万次的查看。

小哥总结到，他觉得这个项目本身并不酷，但是也很容易语料会比较火。基于原始数据集做embeddings并不难，难得是如何一直更新。

小哥名叫Will DePue，也是一个神奇的人，看简历是00后，2003年出生。2021年以UCLA首届Geffen Academy的第二名成绩毕业。UCLA的Geffen Academy是一个为6-12年级学生服务的大学附属学校。他现在在密歇根大学学习计算机科学（CS），并计划在2025年毕业，但现在暂时休学了。

他也是WebGPT的作者，这是一个3周前发布的可以基于WebGPU在浏览器中运行GPT模型的开源项目。

Alexandria项目

Alexandria开源的arXiv论文embeddings数据集

总结

DataLearner 官方微信