DataLearner logoDataLearnerAI
AI Tech Blogs
Leaderboards
Benchmarks
Models
Resources
Tool Directory

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
Original Blog

Original AI Tech Blogs

Explore the latest AI and LLM news and technical articles, covering original content and practical cases in machine learning, deep learning, and natural language processing.

Sort by
Sort by DateSort by Views
大模型泛化能力详解:大模型泛化能力分类、泛化能力来源和泛化研究的方向

大模型泛化能力详解:大模型泛化能力分类、泛化能力来源和泛化研究的方向

关于什么是好的泛化、存在哪些类型的泛化以及在不同的场景中哪些应该被优先考虑,人们对此了解甚少且意见不一。而MetaAI等机构的研究人员最近发布了一篇关于大模型泛化能力的综述,详细总结了大模型泛化能力的分类等。本篇论文详细总结一下大模型的泛化能力分类以及什么样的泛化是未来的中的重点等问题。

2023/10/24 18:10:137,870
#Generalisation#大模型
层次贝叶斯模型(二) 之 互换性和建立层次模型

层次贝叶斯模型(二) 之 互换性和建立层次模型

这个系列的博客来自于 Bayesian Data Analysis, Third Edition. By. Andrew Gelman. etl. 的第五章的翻译。实际中,简单的非层次模型可能并不适合层次数据:在很少的参数情况下,它们并不能准确适配大规 模数据集,然而,过多的参数则可能导致过拟合的问题。相反,层次模型有足够的参数来拟合数据,同 时使用总体分布将参数的依赖结构化,从而避免过拟合问题。本节将讲述互换性并建立层次模型

2016-04-03 17:15:437,863
#层次模型#统计推断
生成对抗网络简介(包含TensorFlow代码示例)【翻译】

生成对抗网络简介(包含TensorFlow代码示例)【翻译】

这篇博客是AYLIEN上的一篇关于生成对抗网络的简单介绍,包含非常简洁的代码示例。是入门非常好的材料。

2017/05/15 14:40:577,790
#TensorFlow#深度学习
贝叶斯分析推断的一些基础知识

贝叶斯分析推断的一些基础知识

贝叶斯分析在概率模型中有非常重要的作用,这些年以来比较有影响力的模型如LDA、非参数贝叶斯模型等都是基于贝叶斯分析的。贝叶斯分析有一些非常基础性的知识,在这里我们描述了贝叶斯分析里面的一些基本表示和一些分析准则等内容。

2016-04-08 10:00:147,761
#基础知识#概率
Spark之RDD、Dataset和DataFrame

Spark之RDD、Dataset和DataFrame

2018/09/21 17:10:477,597
#spark#编程
GPT4All:一个可以直接在本地运行各大商业友好的开源大模型解决方案

GPT4All:一个可以直接在本地运行各大商业友好的开源大模型解决方案

NomicAI推出了GPT4All这款软件,它是一款可以在本地运行各种开源大语言模型的软件。GPT4All将大型语言模型的强大能力带到普通用户的电脑上,无需联网,无需昂贵的硬件,只需几个简单的步骤,你就可以使用当前业界最强大的开源模型。

2023/07/15 22:53:297,577
#GPT4All#大模型软件
OpenAI发布最新Embedding模型——可惜又是一个收费API

OpenAI发布最新Embedding模型——可惜又是一个收费API

嵌入(Embedding)是深度学习方法处理自然语言文本最重要的方式之一。它将人类的自然语言和文本转换成一个浮点型的向量。向量之间的距离代表了它们的关系。今天,OpenAI宣布了他们的Embedding新模型——text-embedding-ada-002。官方宣称这是目前OpenAI最强的嵌入模型,可以将任意文本转换成一个向量,且效果好于目前所有OpenAI的模型。

2022/12/16 21:30:367,456
#Embedding#OpenAI
Keras中predict()方法和predict_classes()方法的区别

Keras中predict()方法和predict_classes()方法的区别

Keras中predict()方法和predict_classes()方法的区别

2019/03/27 21:19:217,429
#Keras中predict()方法和predict_classes()方法的区别
重磅数据集公布!LAION-400-Million Open Dataset免费的4亿条图像-文本对数据( LAION-400M:English (image, text) pairs)

重磅数据集公布!LAION-400-Million Open Dataset免费的4亿条图像-文本对数据( LAION-400M:English (image, text) pairs)

LAION全称Large-scale Artificial Intelligence Open Network,是一家非营利组织,成员来自世界各地,旨在向公众提供大规模机器学习模型、数据集和相关代码。他们声称自己是真正的Open AI,100%非盈利且100%Free。在九月份,他们公布了一个全新的图像-文本对(image-text pair)数据集。该数据集包含4亿条数据。

2022/09/14 11:14:027,415
#图像文本对#数据集
预训练大模型时代必备技能——Prompt Tuning简介

预训练大模型时代必备技能——Prompt Tuning简介

通过调整提示文本,可以使语言模型更好地理解任务的要求和上下文,从而提高其在特定任务上的表现。Prompt tuning是使大型语言模型更加智能和高效的关键步骤之一。只有通过精心设计和优化提示文本,我们才能充分发挥大型语言模型的潜力,并使其更好地服务于人类的需求。因此,Prompt engineering,这一种新的工程能力也开始变得重要。

2023/04/24 22:38:347,414
#PromptEngineering
Java爬虫入门简介(五)——抓包工具的使用以及使用HttpClient模拟用户登录的访问

Java爬虫入门简介(五)——抓包工具的使用以及使用HttpClient模拟用户登录的访问

网络爬虫需要解决的一个重要的问题就是要针对某些需要用户名和密码访问的页面可以模拟用户自动登录。在这一篇博客中我们将介绍如何使用Chrome浏览器自带的抓包工具分析页面并模拟用户自动登录

2017/11/04 09:28:537,338
#HttpClient#Java
张华平分词(又名中科院分词/NLPIR分词)的使用(Java版本)

张华平分词(又名中科院分词/NLPIR分词)的使用(Java版本)

张华平汉语分词系统,现称为NLPIR汉语分词系统,是优秀的中文分词系统。但其使用却有一些配置上的设置是新手可能遇到的一个困难。这里我们简单介绍使用Eclipse导入NLPIR分词系统工程的使用方法。

2017/03/03 20:31:237,283
#分词#工具
word2vec的使用参数解释和应用场景

word2vec的使用参数解释和应用场景

word2vec的各种程序运行方法

2017/05/10 22:13:527,219
#word2vec
高斯分布的贝叶斯推断总结

高斯分布的贝叶斯推断总结

高斯分布是最常见的分布,也是数据挖掘和人工智能中相关统计学习方法所涉及到的最重要的分布之一。使用贝叶斯理论进行统计推断是目前最流行的推断方式。

2017/11/04 09:25:067,217
#正态分布#统计
给初学者的深度学习简介

给初学者的深度学习简介

深度学习是计算机领域中目前非常火的话题,不仅在学术界有很多论文,在业界也有很多实际运用。本篇博客主要介绍了三种基本的深度学习的架构,并对深度学习的原理作了简单的描述。本篇文章翻译自Medium上一篇入门介绍。

2017/10/16 17:05:577,133
#深度学习#神经网络
Copilot Labs插件——基于AI的代码解释和代码翻译神器

Copilot Labs插件——基于AI的代码解释和代码翻译神器

昨天,Copilot团队推出了一个名为GitHub Copilot Labs的VS Code配套扩展。它独立于(并依赖于)GitHub Copilot扩展。它可以用来解释代码和翻译代码。

2022/04/01 09:39:037,067
#copilot#GitHub
深度学习技巧之Padding

深度学习技巧之Padding

卷积神经网络是深度学习中处理图像的利器。在卷积神经网络中,Padding是一种非常常见的操作。本片博客将简要介绍Padding的原理。

2019/02/20 15:22:487,055
#卷积神经网络#深度学习
Java爬虫入门简介(一) —— HttpClient请求

Java爬虫入门简介(一) —— HttpClient请求

使用爬虫获取数据对科研来说及其重要,本系列博客将讲述如何使用Java编写爬虫工具获取网页数据。包括HttpClient 4.3及以上版本的Header设置,请求参数设置等。

2017/11/08 15:24:567,039
#HttpClient#Java
Java爬虫入门简介(四)——HttpClient保存使用Cookie登录

Java爬虫入门简介(四)——HttpClient保存使用Cookie登录

在使用HttpClient作为客户端请求数据的时候,我们常常需要以一个用户的身份多次请求一个网站内的多种资源。例如,我一次登录后,后面希望以这个身份继续访问不用重新登录。这里就可以使用cookie了。

2017/11/08 11:16:097,025
#Cookie#HttpClient
【转载】变分贝叶斯算法理解与推导

【转载】变分贝叶斯算法理解与推导

变分贝叶斯是一类用于贝叶斯估计和机器学习领域中近似计算复杂(intractable)积分的技术。它主要应用于复杂的统计模型中,这种模型一般包括三类变量:观测变量(observed variables, data),未知参数(parameters)和潜变量(latent variables)。

2017/11/04 09:34:536,997
#变分推断#统计
XLNet基本思想简介以及为什么它优于BERT

XLNet基本思想简介以及为什么它优于BERT

前几天刚刚发布的XLNet彻底火了,原因是它在20多项任务中超越了BERT。这是一个非常让人惊讶的结果。之前我们也说过,在斯坦福问答系统中,XLNet也取得了目前单模型第一的成绩(总排名第四,前三个模型都是集成模型)。

2022/05/12 22:52:336,954
#深度学习#论文快讯
SCI已经被SCIE替代

SCI已经被SCIE替代

2020年1月13日,Clarivate官网发布声明称SCI索引将被去除。未来全部使用SCIE代替期刊索引。

2022/04/18 19:33:446,951
#学术#学术期刊
python中configparser读取配置文件的大小写和重复项问题

python中configparser读取配置文件的大小写和重复项问题

使用配置文件控制程序的运行是一种非常常见的编程技巧,因此配置文件的解析是所有编程语言中都不可缺少的模块。在Python中,通常使用configparser模块进行配置文件解析。但是configparser解析配置文件有几个常见问题:读取当前项目下某个位置的配置文件、重复配置项的处理以及大小写配置项的读取。本文将描述如何解决这三个问题。

2021/06/14 11:23:216,945
#python#编程
Dask调度器简介

Dask调度器简介

Dask支持多种调度器,从单线程、多线程、多进程到本地分布式和集群分布式,各种调度器在不同情况下有不同的作用,本文来源于Dask官方文档的翻译,主要向大家介绍这五种调度器的使用情景和方式。最后提供了如何在不同情境下设置Dask调度器的方法。

2020/05/24 18:34:066,886
#Dask#Python
Previous
1...456...39
Next

Topic Collections

RAG (Retrieval-Augmented Generation)Long Context (Large Language Models)AI Agent Practices

Hot Blogs

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8H5文件简介和使用

Today's Picks

  • 重磅!第二代ChatGLM发布!清华大学THUDM发布ChatGLM2-6B:更快更准,更低成本更长输入!
  • 国产全球最长上下文大语言模型开源:XVERSE-13B-256K,一次支持25万字输入,免费商用授权~
  • 7种交叉验证(Cross-validation)技术简介(附代码示例)
  • MetaAI发布语音识别错误率是OpenAI的Whisper模型的一半且支持1107种语言的ASR模型:MMS
  • 大模型微调过程中的几个常见问题
  • 大模型到底能否真正提升写代码效率?Anthropic 内部 20 万条数据首次公开大模型在真实代码工作流中的表现
  • R语言数据库操作(不定时更新)
最新好课!从深度学习到stable diffusion的手把手入门教程