科研数据共享列表

这里,我们将推荐一些数据及提供数据的网站。如果您也有好的网站或者资料愿意分享,欢迎注册登录之后与大家一起分享。感谢您的参与!

如果您有数据的需求,我们也提供有偿爬虫的服务。请发送邮件至datalearner at aliyun.com 咨询。

注:数据来源个人用户分享,本站不提供数据下载,下载地址来源于第三方。数据仅限于科研使用,请不要将数据用于违反法律、法规和社会道德的地方。

数据名称 数据描述 下载地址
1000个微博用户信息及其发表的微博 这是来自新浪微博的1000个用户的基本信息以及他们发表的微博内容。个人信息包括性别、地域、标签、关注数量、粉丝数量等等。微博内容则包括内容、转发数、评论数等。 请登录
IMDB1994-2015年电影数据(包括评价、票房信息等) IMDB1994-2015年电影数据(包括评价、票房信息等) 请登录
新浪微博分类数据集 此数据集为新浪微博中的100名用户在2012年1月13日至2012年1月20日期间所看到的微博。作者对每个用户发表的微博打了标签,所以这是一个带标签的微博数据集。 请登录
Event-based Social Networks数据集 meetup.com事件数据,有用户信息,参与的事件信息,事件发生的地点信息 请登录
用户意图数据 这是一个包含了用户意图的数据,它是用户查询siri等助手的数据,包含了用户的查询和用户的真实意图等。 请登录
LastFM的歌手标签数据 这是LastFM的用户对歌手打的标签数据集。 请登录
LastFM用户听歌信息 LastFM用户信息,包含了用户听的歌曲,听的专辑,关注粉丝列表等信息。 请登录
带标签的热门微博数据 这是从热门微博上爬到的数据,一个文件,两列,第一列表示热门微博的官方分类,第二个是热门微博的内容 请登录

DataHuB

这是一个让大家存放数据共享数据的网站。里面有很多高质量的数据。

社交网络分析数据集

这是由AMiner共享的数据集,包括Twitter用户关注关系、微博用户关注关系、专利关系、Epinions等非常丰富的平台社交关系数据。该平台有清华大学唐杰老师等人创立。

中文数据集

这是Github上一个项目,收集了各种中文数据集,包括各种微博、新闻等文本数据集。这里面还有一个搜狗的新闻数据。

中文语料小数据集

这是Github上一个项目,是中文语料小数据。包含中文人名大全及金庸小说、三国演义及红楼梦人物姓名、成语大全、全国区划和城乡划分代码(2015)、中国省市邮政编码大全等。

Taiga Сorpus

这个网站收集了很多NLP经典任务的数据集,包括语义建模、关键词提取数据集、文本生成数据集、实体识别数据集等。

Yelp评论数据集

这是Yelp官方发布的最新的关于商户评论的数据集,包含商家信息、评论信息和用户数据,以及签到信息,提供JSON和SQL两种格式。有470万的评论,15万6000加商户信息,20万的图片信息,12个城市地区。

人工智能公开数据集

今天建立一个人工智能或者机器学习系统非常容易,无处不在的开源工具,如TensorFlow、Torch和Spark等,与强大的计算设施如AWS,Google Cloud或者其他云平台可以使我们使用自己的电脑训练强大的学习工具。但很多人都忘了,建造一个强大的AI最难的不是不是AI本身或者算法,而是数据收集和标注的问题,Berkeley Labs的Luke de Oliveira为了使各位童鞋的生活更加简单一些,收集了一些开源数据列表,来帮助我们在AI世界里更好的生存。包括图像识别、自然语言处理、会话识别、推荐系统等数据集。

The Yahoo Webscope Program

雅虎Webscope计划是由学者和其他科学家为非商业用途的有趣和科学有用的数据库的参考库。 所有的数据集已经过审查,以符合雅虎的数据保护标准,包括严格的隐私控制。 我们有很多数据集,我们很高兴与您分享。 雅虎很高兴将这些数据集提供给正在推动网络科学知识和理解状态的研究人员。 数据集仅适用于同意数据共享协议的教授和大学研究人员的学术使用。包括广告和营销数据、计算机系统数据、竞赛数据等。

Awesome Public Datasets

这个公共数据源列表是从博客,答案和用户响应中收集和整理的。 下面列出的大部分数据都是免费的,但有些则不是。 它包含了太多的数据集,各种领域如农业、健康、地理、软件、运动等等。

myPersonality Project

myPersonality是一个流行的Facebook应用程序,允许用户进行真正的心理测试,并且记录(在同意的情况下)他们的心理和Facebook个人资料。目前,我们的数据库包含超过600万个测试结果,以及超过400万个人Facebook个人资料。我们的受访者来自不同年龄段,背景和文化。他们非常愿意诚实和谨慎地回答,因为他们参与的唯一的满足是他们对结果的反馈。在这里,我们向注册的合作者提供了各种各样的数据,包括:心理测试测验的得分,用户的Facebook个人资料的记录,测试项目的水平数据,以及一些额外的信息。用户喜欢的记录。您将在“下载数据库”部分找到有关可用数据的更多详细信息。为了让您的生活更轻松,我们预处理大部分数据。我们计算分数,重新编码变量,删除无效记录,匿名结果等。请注意,并非所有已记录(或潜在可记录)的变量当前都可用(让我们知道是否需要添加某些内容)。

中国爬盟

中国爬萌是通过众包方式获取微博数据的合作组织,可以通过贡献并分享您获取的部分数据来换取更多的数据。 最终达到共赢的目的。 爬萌有大量的微博数据。

数据堂

数据堂由国家科技部大力支持,与国内外著名科研机构、高等院校、研发企业通力合作,积累了丰富的科研数据资源,通过统一的平台提供服务,使得科研机构、企业、高校和个人之间实现充分的数据共享。通过该平台,让更多的科研人员进一步发掘和利用这些科学数据的价值,促进我国科学研究水平的提高,使得政府财政投入科研活动的价值得到进一步提升,使得参与其中的各类科研组织、研发企业迅速提升学术影响力、社会影响力。(这破网站很久不更新了,也不知道啥意思,有啥想法,上了新三板就结束了么。。。晕)

Stanford Large Network Dataset Collection

这是Stanford大学创建的一个关于社会网络的数据集收集仓库,包含大量的与社交网络有关的数据集。如Twitter、Facebook等用户及其社交关系。

UC Irvine Machine Learning Repository

我们目前维护295个数据集作为机器学习社区的服务。 您可以通过我们的可搜索界面查看所有数据集。 我们的旧网站仍然可用,对于那些喜欢旧格式的用户。 有关存储库的一般概述,请访问我们的关于页面。 有关在出版物中引用数据集的信息,请阅读我们的引文政策。 如果您希望捐赠数据,请参阅我们的捐赠政策。 对于任何其他问题,请随时联系知识库馆员。 我们还为Repository建立了一个镜像站点。

世界最大的社会科学文献网站 可以找到大量的数据集

ICPSR确保受访者在公共使用版本的数据集内保密。 绝大多数ICPSR数据是公用文件,没有访问限制。 有时采取保护措施降低披露风险将大大降低数据的研究潜力。 在这些情况下,ICPSR通过对访问它们的严格要求提供对保留机密数据的受限使用版本的访问。

webhose.io

该网站提供了很多免费的高质量的文本数据集。主要包括不同语言版本的新闻列表,有按照不同情感倾向分类的、有按照语言分类的、不同类别的。

LibSVM数据

LibSVM数据格式是一种数据表示方式,是一种稀疏矩阵格式。这里列举了很多分类、聚类等任务的数据,都是以LibSVM格式存储的。