DataLearner logoDataLearnerAI
AI Tech Blogs
Leaderboards
Benchmarks
Models
Resources
Tool Directory

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
Original Blog

Original AI Tech Blogs

Explore the latest AI and LLM news and technical articles, covering original content and practical cases in machine learning, deep learning, and natural language processing.

Sort by
Sort by DateSort by Views
最强AI对话系统ChatGPT不完全使用指南——已发掘功能展览!

最强AI对话系统ChatGPT不完全使用指南——已发掘功能展览!

12月1日OpenAI官宣了其目前最强的AI对话系统之后,大家发现这个强大的系统能做的事情远超过大家的想象。我们也在第一时间发布了相关的博客:https://datalearner.com/blog/1051669904657253 。由于这个系统实在是太过强大,大家发现的能力越来越强。连Musk也在几个小时之前感叹这个系统是so much better at bullshit than they are!在这篇博客中,我们将收集关于这个系统目前的使用案例,给大家一个更加全面的展示结果。

2022/12/04 09:10:4410,101
#ChatGPT#GPT
Pycharm更改内存设置

Pycharm更改内存设置

2018/10/31 15:39:589,893
#IDE#pycharm
深度学习之LSTM模型

深度学习之LSTM模型

在前面的博客中,我们已经介绍了基本的RNN模型和GRU深度学习网络,在这篇博客中,我们将介绍LSTM模型,LSTM全称是Long Short-Time Memory,也是RNN模型的一种。

2019/03/23 15:34:009,726
#LSTM#RNN
使用Python的sklearn包做kmeans

使用Python的sklearn包做kmeans

2018/10/31 14:42:149,623
#kmeans#python
机器学习中MCMC方法介绍

机器学习中MCMC方法介绍

有人把Metropolis算法当作是二十世纪最伟大的十大算法之一。这个算法是大规模抽样算法的一种,也叫做马尔可夫链蒙特卡洛(Markov chain Monte Carlo,MCMC)。对于很多高维问题来说,比如计算一个凸体的体积,MCMC仿真是目前唯一可以在合理时间内解决这个问题的一般性方法。本文介绍了三种主流的MCMC算法,即MH算法、模拟退火算法和吉布斯抽样方法

2016-12-28 20:19:299,502
#GibbsSampling#MCMC
R语言如何根据抽样得到训练集与测试集

R语言如何根据抽样得到训练集与测试集

R语言如何根据抽样得到训练集与测试集

2016-05-27 19:29:589,397
#R语言#机器学习
分解机(Factorization Machine, FM)模型简介以及如何使用SGD、ALS和MCMC求解分解机

分解机(Factorization Machine, FM)模型简介以及如何使用SGD、ALS和MCMC求解分解机

分解机

2017/11/04 09:27:249,283
#ALS#MCMC
如何理解狄利克雷过程(Dirichlet Process)

如何理解狄利克雷过程(Dirichlet Process)

狄利克雷过程是非参贝叶斯推断的基础模型。本博客将简要介绍狄利克雷过程模型

2018/01/04 20:10:379,272
#DirichletProcess#狄利克雷过程
CNN经典算法AlexNet介绍

CNN经典算法AlexNet介绍

2012年发表的AlexNet可以算是开启本轮深度学习浪潮的开山之作了。由于AlexNet在ImageNet LSVRC-2012(Large Scale Visual Recognition Competition)赢得第一名,并且错误率只有15.3%(第二名是26.2%),引起了巨大的反响。相比较之前的深度学习网络结构,AlexNet主要的变化在于激活函数采用了Relu、使用Dropout代替正则降低过拟合等。本篇博客将根据其论文,详细讲述AlexNet的网络结构及其特点。

2019/06/20 10:28:169,260
#卷积神经网络#深度学习
origin绘图操作案例(1)

origin绘图操作案例(1)

日常绘图时,会使用都origin,其是一款非常强大的制图工具

2017/11/17 10:47:569,109
#origin#论文制图
一张图总结大语言模型的技术分类、现状和开源情况

一张图总结大语言模型的技术分类、现状和开源情况

4月26日,亚马逊联合其它高校科研人员发表了一篇关于如何使用ChatGPT完成下游论文。里面使用了一个非常直观明了的大语言模型进化图总结了目前当前大语言模型的技术架构分类和开源现状,十分受欢迎。因此,4月30日,作者再次更新这幅图,增加了更多的大语言模型。

2023/06/13 09:41:418,911
#LLM#大语言模型
深度学习的标准符号表示

深度学习的标准符号表示

深度学习中的符号很多,但是大多数情况下,大家都使用同一套符号来表示。这篇博客主要以一个简单的神经网络为例,说明深度学习的标准符号以及相关的维度表示。主要来源是吴恩达的coursera课程。

2019/02/21 20:16:408,703
#深度学习
层次贝叶斯模型(三) 之 共轭层次模型的完整贝叶斯分析

层次贝叶斯模型(三) 之 共轭层次模型的完整贝叶斯分析

我们对层次贝叶斯推断的策略与一般的多参数问题一样,但由于在实际中层次模型的参数很多,所以比较困难。在实际中,我们很难画出联合后验概率分布的图形。但是,我们可以使用近似的基于仿真的方法。 在这个部分,我们提出一个联合了分析的和数值的方法从联合后验分布p(θ, φ|y)中获取仿真结果,以 小鼠肿瘤实验的beta-binormial模型为例,总体分布是p(θ|φ),与似然函数p(y|θ)是共轭的。对于很多非共轭层次模型,更高级的算法将在后面叙述。即使针对更复杂的问题,使用共轭分布来获取近似估计也是很有用的。

2016-04-03 17:15:488,441
#层次模型#统计推断
扩散模型是如何工作的:从0开始的数学原理——How diffusion models work: the math from scratch

扩散模型是如何工作的:从0开始的数学原理——How diffusion models work: the math from scratch

随着DALL·E2的发布,大家发现Text-to-Image居然可以取得如此好的效果。也让diffusion模型变得非常受欢迎。扩散模型虽然火热,但是背后的数学原理可能很多人也不太了解。这篇博客不仅介绍了扩散模型背后的数学原理,也讲述了如何训练扩散模型以及提高扩散模型训练效率的种种技巧,十分值得大家钻研。

2022/10/05 17:46:248,423
#DALLE#StableDiffusion
变分推断之高斯混合模型(案例及代码)

变分推断之高斯混合模型(案例及代码)

变分推断以及高斯混合模型应用

2019/02/14 15:44:168,386
#变分推断#高斯混合模型
OpenAI发布最新最强大的AI对话系统——GPT3.5微调的产物ChatGPT

OpenAI发布最新最强大的AI对话系统——GPT3.5微调的产物ChatGPT

今天,OpenAI公布了最新的一个基于AI的对话系统ChatGPT,是基于GPT3.5微调的结果,试用显示效果惊人!

2022/12/01 22:24:178,360
#GPT#OpenAI
OpenAI官方教程:如何使用基于embeddings检索来解决GPT无法处理长文本和最新数据的问题

OpenAI官方教程:如何使用基于embeddings检索来解决GPT无法处理长文本和最新数据的问题

这是OpenAI官方的cookebook最新更新的一篇技术博客,里面说明了为什么我们需要使用embeddings-based的搜索技术来完成问答任务。

2023/04/24 22:36:298,297
#ChatGPT#LLM
AI大模型领域的热门技术——Embedding入门介绍以及为什么Embedding在大语言模型中很重要

AI大模型领域的热门技术——Embedding入门介绍以及为什么Embedding在大语言模型中很重要

今天,推特上一位科技博主SullyOmarr分享了一个关于embedding的内容十分火爆。主要介绍为什么embedding对于在目前的AI大模型中很重要。这是一个十分不错的关于embedding知识的介绍。本文将根据SullyOmarr的内容也对embedding做一个简单的介绍,并解释为什么它在大语言模型中十分重要。

2023/05/09 23:46:358,191
#Embedding#大语言模型
Pandas的DataFrame选择行或者列的注意事项

Pandas的DataFrame选择行或者列的注意事项

Pandas中的DataFrame选择某些行和某些列是有很多中操作和选择的,不太容易记,这里整理一下。

2020/03/23 11:48:148,164
#pandas#python
吉布斯抽样的一个简单理解

吉布斯抽样的一个简单理解

吉布斯抽样是贝叶斯推断中非常常用的方法。本文来自Cross Validated中一个人的回答。

2017/06/13 21:35:538,118
#抽样#统计
需要多少GPU显存才能运行预训练大语言模型?大语言模型参数规模与显存大小的关系估算方法~

需要多少GPU显存才能运行预训练大语言模型?大语言模型参数规模与显存大小的关系估算方法~

开源大语言模型的发展非常迅速,其强大的能力也吸引了很多人的尝试与体验。尽管预训练大语言模型的使用并不复杂,但是,因为其对GPU资源的消耗很大,导致很多人并不能很好地运行加载模型,也做了很多浪费时间的工作。其中一个比较的的问题就是很多人并不知道自己的显卡支持多大参数规模的模型运行。本文将针对这个问题做一个非常简单的介绍和估算。

2023/08/18 10:48:248,065
#大模型#显存消耗
CNN经典算法VGGNet介绍

CNN经典算法VGGNet介绍

VGGNet(Visual Geometry Group)是2014年又一个经典的卷积神经网络。VGGNet最主要的目标是试图回答“如何设计网络结构”的问题。随着AlexNet提出,很多人开始利用卷积神经网络来解决图像识别的问题。一般的做法都是重复几层卷积网络,每个卷积网络之后接一些池化层,最后再加上几个全连接层。而VGGNet的提出,给这些结构设计带来了一些标准参考。

2019/05/28 21:05:448,049
#卷积神经网络#深度学习
比OpenAI原始的Whisper快70倍的开源语音识别模型Whisper JAX发布!

比OpenAI原始的Whisper快70倍的开源语音识别模型Whisper JAX发布!

Whisper是OpenAI在2022年9月份开源的自动语音识别模型。官方宣传其英语的识别水平与人类接近。而2个月后,官方就发布了Whisper V2版本,是第一个版本继续训练2.5倍得到,且加了正则化技术。而今天,一位网友Sanchit Gandhi发布了Whisper JAX,这是对原有版本的优化结果,识别速度最高达到原始模型的70倍!

2023/04/24 22:50:238,036
#ASR#JAX
目前业界支持中文大语言模型开源和商用许可协议总结

目前业界支持中文大语言模型开源和商用许可协议总结

目前,业界开源的大语言模型越来越多,性能也越来越强大。然而,这些开源模型大多数由国外的机构贡献,对于英文的支持没有任何问题。但是,对于中文的支持则是有好有坏。本文将基于主流的开源大模型进行分析,介绍当前支持中文的开源大模型,并对其使用方式和主要能力进行总结。

2023/05/21 22:45:148,002
#中文大模型#大模型
Previous
1345...39
Next

Topic Collections

RAG (Retrieval-Augmented Generation)Long Context (Large Language Models)AI Agent Practices

Hot Blogs

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8H5文件简介和使用

Today's Picks

  • OpenAI最新动向,Sam不再回归OpenAI,与Greg一起进入微软!OpenAI新任CEO由Emmett Shear接任!
  • GGUF格式的大模型文件是什么意思?gguf是什么格式?如何使用?为什么有GGUF格式的大模型文件?GGUF大模型文件与GGML的差异是啥?
  • 强化学习进入分布式时代——DeepMind分布式强化学习框架ACME发布
  • Qwen1.5系列再次更新:阿里巴巴开源320亿参数Qwen1.5-32B模型,评测结果超过Mixtral 8×7B MoE,性价比更高!
  • 人工智能颠覆影响者营销的八种方式
  • 主题模型聚类匹配2018TKDE阅读笔记(Topic Models for Unsupervised Cluster Matching)
  • Keras框架下的保存模型和加载模型
  • Python中的Pickle操作(pkl文件解释)