DataLearner logoDataLearnerAI
AI Tech Blogs
Leaderboards
Benchmarks
Models
Resources
Tool Directory

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
Original Blog

Original AI Tech Blogs

Explore the latest AI and LLM news and technical articles, covering original content and practical cases in machine learning, deep learning, and natural language processing.

Sort by
Sort by DateSort by Views
大规模中文开源数据集发布!2TB、几十亿条可商用的中文数据集书生·万卷 1.0开源~中文大模型能力可能要更上一层楼了!

大规模中文开源数据集发布!2TB、几十亿条可商用的中文数据集书生·万卷 1.0开源~中文大模型能力可能要更上一层楼了!

随着近年来GPT-3、ChatGPT等大模型的兴起,高质量的数据集在模型训练中扮演着越来越重要的角色。但是当前领先的预训练模型使用的数据集细节往往不公开,开源数据的匮乏制约着研究社区的进一步发展。特别是大规模中文数据集十分缺乏,对中文大模型以及业界模型的中文支持都有很大的影响。此次,上海人工智能实验室发布的这个数据集包含了丰富的中文,对于大模型的中文能力提升十分有价值。

2023/08/24 16:39:224,858
#中文预训练数据集#大模型数据集
ChatGLM-6B升级!清华大学开源VisualGLM-6B:一个可以在本地运行的读懂图片的语言模型!

ChatGLM-6B升级!清华大学开源VisualGLM-6B:一个可以在本地运行的读懂图片的语言模型!

今天,THUDM开源了ChatGLM-6B的多模态升级版模型VisualGLM-6B。这是一个多模态对话语言模型,支持图像、中文和英文。VisualGLM-6B的特别之处在于它能够整合视觉和语言信息。可以用来理解图片,解析图片内容。

2023/05/19 00:27:344,871
#ChatGLM-6B#VisualGLM-6B
论文中常见的英语表达

论文中常见的英语表达

英语论文常见表达笔记

2017/12/04 16:28:464,883
#英语#论文
大语言模型训练之前,数据集的处理步骤包含哪些?以LLaMA模型的数据处理pipeline(CCNet)为例

大语言模型训练之前,数据集的处理步骤包含哪些?以LLaMA模型的数据处理pipeline(CCNet)为例

大语言模型的训练是一个十分复杂的技术,不仅涉及到模型的开发与部署,还涉及到数据的获取。与常规的算法模型不同的是,大语言模型通常需要大量的数据处理步骤。本文是根据英国一位自动工程师总结的大语言模型训练之前的数据处理步骤和决策过程。

2023/04/24 22:50:024,890
#大语言模型#数据处理
特征工程相关技术简介

特征工程相关技术简介

机器学习的特征工程是将原始的输入数据转换成特征,以便于更好的表示潜在的问题,并有助于提高预测模型准确性的过程。找出合适的特征是很困难且耗时的工作,它需要专家知识,而应用机器学习基本也可以理解成特征工程。

2018/10/08 19:41:404,891
#机器学习#特征工程
二叉查找树(Binary Search Trees,BST)数据结构详解

二叉查找树(Binary Search Trees,BST)数据结构详解

二叉查找树是一种特殊的二叉树结构,它改善了二叉树的查找效率,二叉查找树相比于其他数据结构的优势在于查找、插入的时间复杂度较低。与一般的二叉树的主要区别就是它对子节点的键值排序有一定要求。

2018/10/25 17:12:344,899
#二叉树#数据结构
深度学习技术之池化(Pooling)

深度学习技术之池化(Pooling)

2019/02/21 10:43:184,913
#coursera#深度学习
2021年适合初学者的10个最佳机器学习在线课程

2021年适合初学者的10个最佳机器学习在线课程

机器学习是这几年很热门的学习和工作的方向。但是机器学习相关算法的入门却并不容易。本文参考自MLTUT的博文,列举了2021年适合初学者的十个最佳机器学习网络课程供大家学习参考。

2021/10/27 22:04:294,952
#机器学习#课程
[翻译]应用到文本领域的卷积方法

[翻译]应用到文本领域的卷积方法

本文介绍了文本领域的相关任务和技术,探讨了循环神经网络在文本领域的优势,并进一步研究了应用在文本领域的卷积网络方法,原文地址:https://medium.com/@TalPerry/convolutional-methods-for-text-d5260fd5675f

2017/05/27 15:50:254,988
#RNN#卷积神经网络
好消息!3.11和3.12版本的Python将有巨大的性能提升!

好消息!3.11和3.12版本的Python将有巨大的性能提升!

去年5月份的时候,Python创始人Guido van Rossum在参加Language Summit时候说他希望Python3.11能在性能上获得巨大的提升,可以实现性能翻倍。目前看,似乎已经有了很大的希望!

2022/03/15 22:10:004,989
#python
重磅数据集分享:大规模多模态语料库之悟道数据集(WuDaoCorpora 2.0)

重磅数据集分享:大规模多模态语料库之悟道数据集(WuDaoCorpora 2.0)

前几天,北京智源人工智能研究院引入了一个名为WuDaoMM的大规模多模态语料库,总共包含超过6.5亿对图像-文本。具体来说,约有6亿对数据是从图像和标题呈现弱相关的多个网页中收集的,另外5000万对强相关的图像-文本是从一些高质量的图片网站中收集的。

2022/03/24 09:17:395,006
#数据集
Java爬虫入门简介(三) —— Jsoup解析HTML页面

Java爬虫入门简介(三) —— Jsoup解析HTML页面

使用爬虫获取数据对科研来说及其重要,本系列博客将讲述如何使用Java编写爬虫工具获取网页数据。在这篇博客里,我们将简单介绍Jsoup解析HTML页面的操作。

2017/11/08 11:16:515,009
#HttpClient#Java
CNN经典算法之Inception V1(GoogLeNet)

CNN经典算法之Inception V1(GoogLeNet)

GoogLeNet是谷歌在2014年提出的一种CNN深度学习方法,它赢得了2014年ILSVRC的冠军,其错误率要低于当时的VGGNet。与之前的深度学习网络思路不同,之前的CNN网络的主要目标还是加深网络的深度,而GoogLeNet则提出了一种新的结构,称之为inception。GoogLeNet利用inception结构组成了一个22层的巨大的网络,但是其参数却比之前的如AlexNet网络低很多。是一种非常优秀的CNN结构。

2019/05/31 20:22:255,012
#GoogLeNet#Inception
Dirichlet Multinomial Mixture Model做短文本聚类(包括代码)

Dirichlet Multinomial Mixture Model做短文本聚类(包括代码)

2018/03/07 20:22:065,016
#DPMM
R语言技巧总结笔记

R语言技巧总结笔记

蛋疼的R语言

2017/08/22 15:49:435,048
#R语言#编程
考虑价格和促销影响的销售预测算法实践

考虑价格和促销影响的销售预测算法实践

这是一篇来自Towards Data Science上面的一篇个人实践分享,主要是针对销量进行预测。一般来说,销量受到价格、季节等因素影响较大。这里就是考虑这些因素进行的一个实践。值得大家一试。这里我们翻译一下,并对其中的某些工作做一些简单的解释。

2020/02/15 18:16:565,053
#Prophet#python
Dirichlet Process and Stick-Breaking(DP的Stick-breaking 构造)

Dirichlet Process and Stick-Breaking(DP的Stick-breaking 构造)

Dirichlet Process and Stick-Breaking(DP的Stick-breaking 构造)

2017/03/14 14:11:085,061
#DP#Stick-Breaking
深度学习技巧之Batch Normalization

深度学习技巧之Batch Normalization

Batch Normalization是深度学习中最重要的技巧之一。是由Sergey Ioffe和Christian Szeged创建的。Batch Normalization使超参数的搜索更加快速便捷,也使得神经网络鲁棒性更好。本篇博客将简要介绍相关概念和原理。

2019/08/18 15:52:575,067
#coursera#深度学习
用python生成随机数的几种方法

用python生成随机数的几种方法

本篇博客主要讲解如何从给定参数的的正态分布/均匀分布中生成随机数以及如何以给定概率从数字列表抽取某数字或从区间列表的某一区间内生成随机数,按照内容将博客分为3部分,并附上代码。

2019/03/27 21:13:175,199
#Python#随机数生成
大模型驱动的自动代理(AI Agent):将语言模型的能力变成通用能力的一种方式——来自OpenAI安全团队负责人的解释与观点

大模型驱动的自动代理(AI Agent):将语言模型的能力变成通用能力的一种方式——来自OpenAI安全团队负责人的解释与观点

当前大模型本质是一种大语言模型(Large Language Models, LLM),其核心能力是对语言的处理。良好的意图识别和文本生成能力让LLM超越了之前的模型,有了巨大的实用价值。但是,现实问题涉及了很多超越语言模型之外的能力,如基于最新数据的文本摘要、向用户提供实时数据分析和可视化结果、为代码提供debugging等。目前,让LLM解决这些问题的一个最有前景的方向就是建立大模型驱动的自动代理。也就是让LLM作为核心控制者来学会使用不同工具,进而完成最终任务。

2023/07/20 16:35:005,205
#AIAgent#LLM
Android开发入门基础知识——Intent详解

Android开发入门基础知识——Intent详解

Intent是Android中通信的组件。这篇博客将详细讲述什么是Intent及其用法。

2017/11/08 11:16:255,222
#Android#移动开发
ItemCF--Python

ItemCF--Python

基于项目最近邻的协同过滤算法,面向的是隐偏好数据,数据格式为<userid,itemid>,测试算法的指标为precision和recall

2016-06-06 15:09:015,266
#个性化推荐
TFboys:使用Tensorflow搭建深层网络分类器

TFboys:使用Tensorflow搭建深层网络分类器

使用Tensorflow的高级API - tf.contrib.learn 搭建一个DNN分类器

2017/03/08 09:53:515,268
#DNN#Tensorflow
国产代码补全预训练模型——清华大学CodeGeeX发布!

国产代码补全预训练模型——清华大学CodeGeeX发布!

随着NLP预训练模型的发展,大语言模型在各个领域的作用也越来越大。几个月前,GitHub基于OpenAI的GPT-3训练的Copilot效果十分惊艳,可惜现在已经开始收费。而最近,清华大学也发布了一个代码补全神器——CodeGeeX。

2022/10/02 14:22:355,274
#代码补全#预训练
Previous
1...313233...39
Next

Topic Collections

RAG (Retrieval-Augmented Generation)Long Context (Large Language Models)AI Agent Practices

Hot Blogs

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8H5文件简介和使用

Today's Picks

  • 深度学习技巧之Batch Normalization
  • OpenAI最新动向,Sam不再回归OpenAI,与Greg一起进入微软!OpenAI新任CEO由Emmett Shear接任!
  • 2023年11月第四周的HuggingFace流行的十大开源大模型分析——多模态大模型和小规模模型爆发
  • 使用卷积神经网络进行手写识别
  • Meta即将推出开源的CodeLLaMA:一种新的编程AI模型
  • Anubis——纽约大学计算机学生建立的学习管理系统和CloudIDE简介
  • 来自OpenAI官方的GPT-5编码提示词优化实践:6 条“更懂开发者”的提示工程技巧
截止目前中文领域最大参数量的大模型开源:上海人工智能实验室开源200亿参数的书生·浦语大模型(InternLM 20B系列),性能提升非常明显!