科研数据共享列表

这里，我们将推荐一些数据及提供数据的网站。如果您也有好的网站或者资料愿意分享，欢迎注册登录之后与大家一起分享。感谢您的参与！

如果您有数据的需求，我们也提供有偿爬虫的服务。请发送邮件至datalearner at aliyun.com 咨询。

注：数据来源个人用户分享，本站不提供数据下载，下载地址来源于第三方。数据仅限于科研使用，请不要将数据用于违反法律、法规和社会道德的地方。

数据名称	数据描述	下载地址
1000个微博用户信息及其发表的微博	这是来自新浪微博的1000个用户的基本信息以及他们发表的微博内容。个人信息包括性别、地域、标签、关注数量、粉丝数量等等。微博内容则包括内容、转发数、评论数等。	请登录
IMDB1994-2015年电影数据（包括评价、票房信息等）	IMDB1994-2015年电影数据（包括评价、票房信息等）	请登录
新浪微博分类数据集	此数据集为新浪微博中的100名用户在2012年1月13日至2012年1月20日期间所看到的微博。作者对每个用户发表的微博打了标签，所以这是一个带标签的微博数据集。	请登录
Event-based Social Networks数据集	meetup.com事件数据，有用户信息，参与的事件信息，事件发生的地点信息	请登录
用户意图数据	这是一个包含了用户意图的数据，它是用户查询siri等助手的数据，包含了用户的查询和用户的真实意图等。	请登录
LastFM的歌手标签数据	这是LastFM的用户对歌手打的标签数据集。	请登录
LastFM用户听歌信息	LastFM用户信息，包含了用户听的歌曲，听的专辑，关注粉丝列表等信息。	请登录
带标签的热门微博数据	这是从热门微博上爬到的数据，一个文件，两列，第一列表示热门微博的官方分类，第二个是热门微博的内容	请登录
GoEmotions	GoEmotions是Google AI发布的关于文本的情绪分类数据集，包含27种情绪，分为正向、负向和令人困惑的三类。数据包含5.8万条Reddit评论，完全由人工标注，对于做人机交互、聊天机器人和文本情感分析的童鞋来说非常有价值。	请登录
新百胜娱乐游戏网投APP下载	新百胜公司网址【www.xbs0077.com】v线w27548177　“动态清零”是赢得发展主动的最大底气。疫情防不住，经济社会发展就无从谈起。只有坚持“动态清零”，让“救人”与“救市” 两条腿都稳健走路，才能让短期目标与长期统筹相得益彰。从一季度疫情“阴霾”走出的深圳，4月份全社会用电量已恢复至去年同期水平；吉林全省粮食作物完成播种已超八成，速度快于上年同期；上海预计6月份全面恢复全市正常生产生活秩序… …事实表明，“动态清零”是以最小的社会成本，获取最大的防控成效。	请登录
新百胜靠谱平台注册	新百胜公司网址【www.xbs0077.com】v线w27548177　“动态清零”是赢得发展主动的最大底气。疫情防不住，经济社会发展就无从谈起。只有坚持“动态清零”，让“救人”与“救市” 两条腿都稳健走路，才能让短期目标与长期统筹相得益彰。从一季度疫情“阴霾”走出的深圳，4月份全社会用电量已恢复至去年同期水平；吉林全省粮食作物完成播种已超八成，速度快于上年同期；上海预计6月份全面恢复全市正常生产生活秩序… …事实表明，“动态清零”是以最小的社会成本，获取最大的防控成效。	请登录
新百胜娱乐网投平台现场同步	新百胜公司网址【www.xbs0077.com】v线w27548177　“动态清零”是赢得发展主动的最大底气。疫情防不住，经济社会发展就无从谈起。只有坚持“动态清零”，让“救人”与“救市” 两条腿都稳健走路，才能让短期目标与长期统筹相得益彰。从一季度疫情“阴霾”走出的深圳，4月份全社会用电量已恢复至去年同期水平；吉林全省粮食作物完成播种已超八成，速度快于上年同期；上海预计6月份全面恢复全市正常生产生活秩序… …事实表明，“动态清零”是以最小的社会成本，获取最大的防控成效。	请登录

社交网络分析数据集

这是由AMiner共享的数据集，包括Twitter用户关注关系、微博用户关注关系、专利关系、Epinions等非常丰富的平台社交关系数据。该平台有清华大学唐杰老师等人创立。

中文数据集

这是Github上一个项目，收集了各种中文数据集，包括各种微博、新闻等文本数据集。这里面还有一个搜狗的新闻数据。

中文语料小数据集

这是Github上一个项目，是中文语料小数据。包含中文人名大全及金庸小说、三国演义及红楼梦人物姓名、成语大全、全国区划和城乡划分代码(2015)、中国省市邮政编码大全等。

Taiga Сorpus

这个网站收集了很多NLP经典任务的数据集，包括语义建模、关键词提取数据集、文本生成数据集、实体识别数据集等。

Yelp评论数据集

这是Yelp官方发布的最新的关于商户评论的数据集，包含商家信息、评论信息和用户数据，以及签到信息，提供JSON和SQL两种格式。有470万的评论，15万6000加商户信息，20万的图片信息，12个城市地区。

今天建立一个人工智能或者机器学习系统非常容易，无处不在的开源工具，如TensorFlow、Torch和Spark等，与强大的计算设施如AWS，Google Cloud或者其他云平台可以使我们使用自己的电脑训练强大的学习工具。但很多人都忘了，建造一个强大的AI最难的不是不是AI本身或者算法，而是数据收集和标注的问题，Berkeley Labs的Luke de Oliveira为了使各位童鞋的生活更加简单一些，收集了一些开源数据列表，来帮助我们在AI世界里更好的生存。包括图像识别、自然语言处理、会话识别、推荐系统等数据集。

The Yahoo Webscope Program

雅虎Webscope计划是由学者和其他科学家为非商业用途的有趣和科学有用的数据库的参考库。所有的数据集已经过审查，以符合雅虎的数据保护标准，包括严格的隐私控制。我们有很多数据集，我们很高兴与您分享。雅虎很高兴将这些数据集提供给正在推动网络科学知识和理解状态的研究人员。数据集仅适用于同意数据共享协议的教授和大学研究人员的学术使用。包括广告和营销数据、计算机系统数据、竞赛数据等。

Awesome Public Datasets

这个公共数据源列表是从博客，答案和用户响应中收集和整理的。下面列出的大部分数据都是免费的，但有些则不是。它包含了太多的数据集，各种领域如农业、健康、地理、软件、运动等等。

myPersonality Project

myPersonality是一个流行的Facebook应用程序，允许用户进行真正的心理测试，并且记录（在同意的情况下）他们的心理和Facebook个人资料。目前，我们的数据库包含超过600万个测试结果，以及超过400万个人Facebook个人资料。我们的受访者来自不同年龄段，背景和文化。他们非常愿意诚实和谨慎地回答，因为他们参与的唯一的满足是他们对结果的反馈。在这里，我们向注册的合作者提供了各种各样的数据，包括：心理测试测验的得分，用户的Facebook个人资料的记录，测试项目的水平数据，以及一些额外的信息。用户喜欢的记录。您将在“下载数据库”部分找到有关可用数据的更多详细信息。为了让您的生活更轻松，我们预处理大部分数据。我们计算分数，重新编码变量，删除无效记录，匿名结果等。请注意，并非所有已记录（或潜在可记录）的变量当前都可用（让我们知道是否需要添加某些内容）。

科研数据共享列表

DataHuB

社交网络分析数据集

中文数据集

中文语料小数据集

Taiga Сorpus

Yelp评论数据集

人工智能公开数据集

The Yahoo Webscope Program

Awesome Public Datasets

myPersonality Project

中国爬盟

数据堂

Stanford Large Network Dataset Collection

UC Irvine Machine Learning Repository

世界最大的社会科学文献网站可以找到大量的数据集

webhose.io

LibSVM数据

微软公开数据