DataLearner logoDataLearnerAI
AI Tech Blogs
Leaderboards
Benchmarks
Models
Resources
Tool Directory

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
Original Blog

Original AI Tech Blogs

Explore the latest AI and LLM news and technical articles, covering original content and practical cases in machine learning, deep learning, and natural language processing.

Sort by
Sort by DateSort by Views
给初学者的深度学习简介

给初学者的深度学习简介

深度学习是计算机领域中目前非常火的话题,不仅在学术界有很多论文,在业界也有很多实际运用。本篇博客主要介绍了三种基本的深度学习的架构,并对深度学习的原理作了简单的描述。本篇文章翻译自Medium上一篇入门介绍。

2017/10/16 17:05:577,134
#深度学习#神经网络
高斯分布的贝叶斯推断总结

高斯分布的贝叶斯推断总结

高斯分布是最常见的分布,也是数据挖掘和人工智能中相关统计学习方法所涉及到的最重要的分布之一。使用贝叶斯理论进行统计推断是目前最流行的推断方式。

2017/11/04 09:25:067,217
#正态分布#统计
word2vec的使用参数解释和应用场景

word2vec的使用参数解释和应用场景

word2vec的各种程序运行方法

2017/05/10 22:13:527,219
#word2vec
张华平分词(又名中科院分词/NLPIR分词)的使用(Java版本)

张华平分词(又名中科院分词/NLPIR分词)的使用(Java版本)

张华平汉语分词系统,现称为NLPIR汉语分词系统,是优秀的中文分词系统。但其使用却有一些配置上的设置是新手可能遇到的一个困难。这里我们简单介绍使用Eclipse导入NLPIR分词系统工程的使用方法。

2017/03/03 20:31:237,285
#分词#工具
Java爬虫入门简介(五)——抓包工具的使用以及使用HttpClient模拟用户登录的访问

Java爬虫入门简介(五)——抓包工具的使用以及使用HttpClient模拟用户登录的访问

网络爬虫需要解决的一个重要的问题就是要针对某些需要用户名和密码访问的页面可以模拟用户自动登录。在这一篇博客中我们将介绍如何使用Chrome浏览器自带的抓包工具分析页面并模拟用户自动登录

2017/11/04 09:28:537,338
#HttpClient#Java
预训练大模型时代必备技能——Prompt Tuning简介

预训练大模型时代必备技能——Prompt Tuning简介

通过调整提示文本,可以使语言模型更好地理解任务的要求和上下文,从而提高其在特定任务上的表现。Prompt tuning是使大型语言模型更加智能和高效的关键步骤之一。只有通过精心设计和优化提示文本,我们才能充分发挥大型语言模型的潜力,并使其更好地服务于人类的需求。因此,Prompt engineering,这一种新的工程能力也开始变得重要。

2023/04/24 22:38:347,414
#PromptEngineering
重磅数据集公布!LAION-400-Million Open Dataset免费的4亿条图像-文本对数据( LAION-400M:English (image, text) pairs)

重磅数据集公布!LAION-400-Million Open Dataset免费的4亿条图像-文本对数据( LAION-400M:English (image, text) pairs)

LAION全称Large-scale Artificial Intelligence Open Network,是一家非营利组织,成员来自世界各地,旨在向公众提供大规模机器学习模型、数据集和相关代码。他们声称自己是真正的Open AI,100%非盈利且100%Free。在九月份,他们公布了一个全新的图像-文本对(image-text pair)数据集。该数据集包含4亿条数据。

2022/09/14 11:14:027,415
#图像文本对#数据集
Keras中predict()方法和predict_classes()方法的区别

Keras中predict()方法和predict_classes()方法的区别

Keras中predict()方法和predict_classes()方法的区别

2019/03/27 21:19:217,429
#Keras中predict()方法和predict_classes()方法的区别
OpenAI发布最新Embedding模型——可惜又是一个收费API

OpenAI发布最新Embedding模型——可惜又是一个收费API

嵌入(Embedding)是深度学习方法处理自然语言文本最重要的方式之一。它将人类的自然语言和文本转换成一个浮点型的向量。向量之间的距离代表了它们的关系。今天,OpenAI宣布了他们的Embedding新模型——text-embedding-ada-002。官方宣称这是目前OpenAI最强的嵌入模型,可以将任意文本转换成一个向量,且效果好于目前所有OpenAI的模型。

2022/12/16 21:30:367,456
#Embedding#OpenAI
GPT4All:一个可以直接在本地运行各大商业友好的开源大模型解决方案

GPT4All:一个可以直接在本地运行各大商业友好的开源大模型解决方案

NomicAI推出了GPT4All这款软件,它是一款可以在本地运行各种开源大语言模型的软件。GPT4All将大型语言模型的强大能力带到普通用户的电脑上,无需联网,无需昂贵的硬件,只需几个简单的步骤,你就可以使用当前业界最强大的开源模型。

2023/07/15 22:53:297,577
#GPT4All#大模型软件
Spark之RDD、Dataset和DataFrame

Spark之RDD、Dataset和DataFrame

2018/09/21 17:10:477,597
#spark#编程
贝叶斯分析推断的一些基础知识

贝叶斯分析推断的一些基础知识

贝叶斯分析在概率模型中有非常重要的作用,这些年以来比较有影响力的模型如LDA、非参数贝叶斯模型等都是基于贝叶斯分析的。贝叶斯分析有一些非常基础性的知识,在这里我们描述了贝叶斯分析里面的一些基本表示和一些分析准则等内容。

2016-04-08 10:00:147,762
#基础知识#概率
生成对抗网络简介(包含TensorFlow代码示例)【翻译】

生成对抗网络简介(包含TensorFlow代码示例)【翻译】

这篇博客是AYLIEN上的一篇关于生成对抗网络的简单介绍,包含非常简洁的代码示例。是入门非常好的材料。

2017/05/15 14:40:577,790
#TensorFlow#深度学习
层次贝叶斯模型(二) 之 互换性和建立层次模型

层次贝叶斯模型(二) 之 互换性和建立层次模型

这个系列的博客来自于 Bayesian Data Analysis, Third Edition. By. Andrew Gelman. etl. 的第五章的翻译。实际中,简单的非层次模型可能并不适合层次数据:在很少的参数情况下,它们并不能准确适配大规 模数据集,然而,过多的参数则可能导致过拟合的问题。相反,层次模型有足够的参数来拟合数据,同 时使用总体分布将参数的依赖结构化,从而避免过拟合问题。本节将讲述互换性并建立层次模型

2016-04-03 17:15:437,863
#层次模型#统计推断
大模型泛化能力详解:大模型泛化能力分类、泛化能力来源和泛化研究的方向

大模型泛化能力详解:大模型泛化能力分类、泛化能力来源和泛化研究的方向

关于什么是好的泛化、存在哪些类型的泛化以及在不同的场景中哪些应该被优先考虑,人们对此了解甚少且意见不一。而MetaAI等机构的研究人员最近发布了一篇关于大模型泛化能力的综述,详细总结了大模型泛化能力的分类等。本篇论文详细总结一下大模型的泛化能力分类以及什么样的泛化是未来的中的重点等问题。

2023/10/24 18:10:137,870
#Generalisation#大模型
目前业界支持中文大语言模型开源和商用许可协议总结

目前业界支持中文大语言模型开源和商用许可协议总结

目前,业界开源的大语言模型越来越多,性能也越来越强大。然而,这些开源模型大多数由国外的机构贡献,对于英文的支持没有任何问题。但是,对于中文的支持则是有好有坏。本文将基于主流的开源大模型进行分析,介绍当前支持中文的开源大模型,并对其使用方式和主要能力进行总结。

2023/05/21 22:45:148,003
#中文大模型#大模型
比OpenAI原始的Whisper快70倍的开源语音识别模型Whisper JAX发布!

比OpenAI原始的Whisper快70倍的开源语音识别模型Whisper JAX发布!

Whisper是OpenAI在2022年9月份开源的自动语音识别模型。官方宣传其英语的识别水平与人类接近。而2个月后,官方就发布了Whisper V2版本,是第一个版本继续训练2.5倍得到,且加了正则化技术。而今天,一位网友Sanchit Gandhi发布了Whisper JAX,这是对原有版本的优化结果,识别速度最高达到原始模型的70倍!

2023/04/24 22:50:238,036
#ASR#JAX
CNN经典算法VGGNet介绍

CNN经典算法VGGNet介绍

VGGNet(Visual Geometry Group)是2014年又一个经典的卷积神经网络。VGGNet最主要的目标是试图回答“如何设计网络结构”的问题。随着AlexNet提出,很多人开始利用卷积神经网络来解决图像识别的问题。一般的做法都是重复几层卷积网络,每个卷积网络之后接一些池化层,最后再加上几个全连接层。而VGGNet的提出,给这些结构设计带来了一些标准参考。

2019/05/28 21:05:448,050
#卷积神经网络#深度学习
需要多少GPU显存才能运行预训练大语言模型?大语言模型参数规模与显存大小的关系估算方法~

需要多少GPU显存才能运行预训练大语言模型?大语言模型参数规模与显存大小的关系估算方法~

开源大语言模型的发展非常迅速,其强大的能力也吸引了很多人的尝试与体验。尽管预训练大语言模型的使用并不复杂,但是,因为其对GPU资源的消耗很大,导致很多人并不能很好地运行加载模型,也做了很多浪费时间的工作。其中一个比较的的问题就是很多人并不知道自己的显卡支持多大参数规模的模型运行。本文将针对这个问题做一个非常简单的介绍和估算。

2023/08/18 10:48:248,066
#大模型#显存消耗
吉布斯抽样的一个简单理解

吉布斯抽样的一个简单理解

吉布斯抽样是贝叶斯推断中非常常用的方法。本文来自Cross Validated中一个人的回答。

2017/06/13 21:35:538,119
#抽样#统计
Pandas的DataFrame选择行或者列的注意事项

Pandas的DataFrame选择行或者列的注意事项

Pandas中的DataFrame选择某些行和某些列是有很多中操作和选择的,不太容易记,这里整理一下。

2020/03/23 11:48:148,164
#pandas#python
AI大模型领域的热门技术——Embedding入门介绍以及为什么Embedding在大语言模型中很重要

AI大模型领域的热门技术——Embedding入门介绍以及为什么Embedding在大语言模型中很重要

今天,推特上一位科技博主SullyOmarr分享了一个关于embedding的内容十分火爆。主要介绍为什么embedding对于在目前的AI大模型中很重要。这是一个十分不错的关于embedding知识的介绍。本文将根据SullyOmarr的内容也对embedding做一个简单的介绍,并解释为什么它在大语言模型中十分重要。

2023/05/09 23:46:358,191
#Embedding#大语言模型
OpenAI官方教程:如何使用基于embeddings检索来解决GPT无法处理长文本和最新数据的问题

OpenAI官方教程:如何使用基于embeddings检索来解决GPT无法处理长文本和最新数据的问题

这是OpenAI官方的cookebook最新更新的一篇技术博客,里面说明了为什么我们需要使用embeddings-based的搜索技术来完成问答任务。

2023/04/24 22:36:298,298
#ChatGPT#LLM
OpenAI发布最新最强大的AI对话系统——GPT3.5微调的产物ChatGPT

OpenAI发布最新最强大的AI对话系统——GPT3.5微调的产物ChatGPT

今天,OpenAI公布了最新的一个基于AI的对话系统ChatGPT,是基于GPT3.5微调的结果,试用显示效果惊人!

2022/12/01 22:24:178,360
#GPT#OpenAI
Previous
1...343536...39
Next

Topic Collections

RAG (Retrieval-Augmented Generation)Long Context (Large Language Models)AI Agent Practices

Hot Blogs

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8H5文件简介和使用

Today's Picks

  • Google最新超大模型Pathways:一个会讲笑话的6400亿参数的语言模型
  • TensorFlow学习——基本概念(1)
  • SlimPajama:CerebrasAI开源最新可商用的高质量大语言模型训练数据集,含6270亿个tokens!
  • OpenAI正在开发一个全新的基于大模型的Agent产品
  • GPT-4.5:技术细节与用户反馈
  • Claude开始转向收费模式!推出Claude Pro,定价20美元一个月解锁PDF理解最强大模型的能力~
  • Artificial Analysis报告显示中国AI产业技术突破,已经与美国形成全球双极主导
Copilot Labs插件——基于AI的代码解释和代码翻译神器