DataLearner logoDataLearnerAI
AI Tech Blogs
Leaderboards
Benchmarks
Models
Resources
Tool Directory

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
Original Blog

Original AI Tech Blogs

Explore the latest AI and LLM news and technical articles, covering original content and practical cases in machine learning, deep learning, and natural language processing.

Sort by
Sort by DateSort by Views
OpenAI官方最新研究成果:如何用GPT-4这样的语言模型来解释语言模型中的神经元(neurons)

OpenAI官方最新研究成果:如何用GPT-4这样的语言模型来解释语言模型中的神经元(neurons)

今天,OpenAI官方宣布了一个非常有意思的论文,他们使用GPT-4模型来自动解释GPT-2中每个神经元的含义,试图让语言模型来对语言模型本身的原理进行解释。

2023/05/10 22:30:44946
#OpenAI#可解释性
通用人工智能(AGI)再往前一步:MetaAI发布新的能听会说的多模态AI大模型ImageBind

通用人工智能(AGI)再往前一步:MetaAI发布新的能听会说的多模态AI大模型ImageBind

当前,大语言模型主要是基于生成式自然语言处理模型为主。少部分多模态模型可以处理文本、图片和视频信息。但是,AI模型目前还无法像人类一样接受周围的多模态信息进行处理,如图像、文本、声音等。但是,昨天MetaAI发布了一个可以听说读写的AI大模型ImageBind,它可以同时处理6种数据,并输出。本文将简单介绍一下这个模型。

2023/05/10 13:32:141,151
#AGI#ImageBind
AI大模型领域的热门技术——Embedding入门介绍以及为什么Embedding在大语言模型中很重要

AI大模型领域的热门技术——Embedding入门介绍以及为什么Embedding在大语言模型中很重要

今天,推特上一位科技博主SullyOmarr分享了一个关于embedding的内容十分火爆。主要介绍为什么embedding对于在目前的AI大模型中很重要。这是一个十分不错的关于embedding知识的介绍。本文将根据SullyOmarr的内容也对embedding做一个简单的介绍,并解释为什么它在大语言模型中十分重要。

2023/05/09 23:46:358,191
#Embedding#大语言模型
当前业界最优秀的8个编程大模型简介:从最早的DeepMind的AlphaCode到最新的StarCoder全解析~

当前业界最优秀的8个编程大模型简介:从最早的DeepMind的AlphaCode到最新的StarCoder全解析~

大语言模型中一个非常重要的内容就是关于代码的支持。通常,基于代码数据训练的模型不仅在代码补全方面有着更好地支持,也可能是大语言模型逻辑能力的部分来源。本文将总结目前业界专门针对代码补全(生成)方面而做的8个大模型。

2023/05/07 23:47:246,469
#编程#编程大模型
最新发布!截止目前最强大的最高支持65k输入的开源可商用AI大模型:MPT-7B!

最新发布!截止目前最强大的最高支持65k输入的开源可商用AI大模型:MPT-7B!

昨天,开源AI模型领域迎来一个重磅玩家,MosaicML发布MPT-7B系列模型,根据官方宣布的测试结果,MPT-7B的水平与MetaAI发布的LLaMA-7B水平差不多,属于当前开源领域最强大的模型。最重要的是,MPT-7B系列中有一个可以支持最多65k上下文输入的开源模型,比GPT-4的32k还高!应该是目前最长的!

2023/05/07 09:20:262,653
#MPT-7B#开源模型
如何用7.7亿参数的蒸馏模型超过5400亿的大语言模型——Google提出新的模型蒸馏方法:逐步蒸馏(Distilling step-by-step)详解

如何用7.7亿参数的蒸馏模型超过5400亿的大语言模型——Google提出新的模型蒸馏方法:逐步蒸馏(Distilling step-by-step)详解

华盛顿大学研究人员与Google的研究人员一起在5月3日公布了一个新的方法,即逐步蒸馏(Distilling step-by-step),这个方法最大的特点有2个:一是需要更少的数据来做模型的蒸馏(根据论文描述,平均只需要之前方法的一半数据,最多只需要15%的数据就可以达到类似的效果);而是可以获得更小规模的模型(最多可以比原来模型规模小2000倍!)

2023/05/05 22:03:052,745
#模型蒸馏
重磅!来自Google内部AI研究人员的焦虑:We Have No Moat And neither does OpenAI

重磅!来自Google内部AI研究人员的焦虑:We Have No Moat And neither does OpenAI

5月4日,网络流传了一个所谓Google内部人员写的内部信,表达了Google和OpenAI这样的公司可能并不能在AI领域获得胜利的焦虑。里面说明了开源的AI模型发展迅速,不管是Google还是OpenAI都没有很好的护城河。

2023/05/05 07:21:472,550
#Google#OpenAI
可能是过去三十年来编程语言最大的革新:新的面向AI的编程语言Mojo发布~

可能是过去三十年来编程语言最大的革新:新的面向AI的编程语言Mojo发布~

昨天,前苹果工程师、swift编程语言创建者Chris Lattner创立的ModularAI发布了一个新的编程语言Mojo。根据测试,该语言比Python最高提速35000倍!本文将简单介绍一下这个Mojo编程语言。

2023/05/04 22:23:321,319
#AI编程#Mojo
5月3日,2个重磅开源的AI模型发布:Replit代码补全大模型和LLaMA复刻版OpenLLaMA发布

5月3日,2个重磅开源的AI模型发布:Replit代码补全大模型和LLaMA复刻版OpenLLaMA发布

五一长假最后一天,AI技术的发展依然火热。今天有2个重磅的开源模型发布:一个是前几天提到的Replit的代码补全大模型Replit Code V1 3B,一个是UC Berkeley的博士生Hao Liu发起的一个开源LLaMA复刻项目。

2023/05/03 21:40:582,013
#AI模型#代码补全
MBA与数据分析师危矣?最新内测版本的ChatGPT已经可以针对excel自动做数据分析和异常分析了!

MBA与数据分析师危矣?最新内测版本的ChatGPT已经可以针对excel自动做数据分析和异常分析了!

2023年3月23日OpenAI官方宣布ChatGPT即将支持Plugin模式。这是一种用插件的方式来解锁ChatGPT的能力,包括让ChatGPT可以浏览网页、从本地商店订购食材等。今天,沃顿商学院教授Ethan Mollick在推特上公布了自己收到了ChatGPT内测邀请,并使用它的代码解释器(Python Interpreter)插件让ChatGPT针对一份excel数据完成了非常专业的数据分析的工作。

2023/04/29 23:53:591,397
#ChatGPT#ChatGPT插件
吴恩达联合OpenAI推出免费的面向开发者的ChatGPT Prompt工程课程——ChatGPT Prompt Engineering for Developers

吴恩达联合OpenAI推出免费的面向开发者的ChatGPT Prompt工程课程——ChatGPT Prompt Engineering for Developers

昨天,吴恩达宣布与OpenAI联合推出了一个新的面向开发者的ChatGPT的Prompt课程。课程主要教授大家如何使用Prompt做ChatGPT的应用开发、使用ChatGPT的新方法、建立自己的个性化的Chatbot,以及最重要的,基于OpenAI的API来练习Prompt工程技巧!

2023/04/28 09:59:543,603
#AI教程#PromptEngineering
大语言模型的技术总结系列一:RNN与Transformer架构的区别以及为什么Transformer更好

大语言模型的技术总结系列一:RNN与Transformer架构的区别以及为什么Transformer更好

大语言模型(Large Language Model,LLM)是近几年进展最大的AI模型。早期的深度学习架构语言模型以RNN为主,现在则基本上转成了Transformer的架构。尽管如此,Transformer本身也是有着不同的区别。而本文是大语言模型系列中的一篇,主要介绍RNN模型与Transformer之间的区别。

2023/04/27 22:02:333,235
#LLM#RNN
大语言模型的技术总结系列一:RNN与Transformer架构的区别以及为什么Transformer更好

大语言模型的技术总结系列一:RNN与Transformer架构的区别以及为什么Transformer更好

大语言模型(Large Language Model,LLM)是近几年进展最大的AI模型。早期的深度学习架构语言模型以RNN为主,现在则基本上转成了Transformer的架构。尽管如此,Transformer本身也是有着不同的区别。而本文是大语言模型系列中的一篇,主要介绍RNN模型与Transformer之间的区别。

2023/04/27 22:02:332,663
#LLM#RNN
ChatGPT的强有力挑战者HuggingChat发布——速度很快,不过水平略差~~

ChatGPT的强有力挑战者HuggingChat发布——速度很快,不过水平略差~~

HuggingFace是近几年最火热的AI社区,在短短几年时间里已经称为AI模型的GitHub。目前,HuggingFace上已经托管了18万多的模型、3万多的数据集以及4万多的模型demo(spaces)。今天,HuggingFace发布了HuggingChat,声称要做最好的开源AI Chat项目,并且对所有人开放。

2023/04/26 22:31:251,633
#HuggingChat#开源大模型
2023年4月25日的AI技术新进展快报:Chatbot Arena、Track Anything、600+AI工具、RedPajama 7B进展、科大讯飞大模型内测等

2023年4月25日的AI技术新进展快报:Chatbot Arena、Track Anything、600+AI工具、RedPajama 7B进展、科大讯飞大模型内测等

最近两天,关于AI技术和产品的进展依然很快。所以,我们本次直接给出一个AI技术进展快报。与大家分享一下最新的AI技术情况。

2023/04/25 22:25:421,618
#大模型进展
Awesome ChatGPT Prompts——一个致力于提供挖掘ChatGPT能力的Prompt收集网站

Awesome ChatGPT Prompts——一个致力于提供挖掘ChatGPT能力的Prompt收集网站

Awesome ChatGPT Prompts是由JavaScript开发者Fatih Kadir Akın创建的一个网站和应用,里面收集了160多个关于ChatGPT的Prompt模板,可以让ChatGPT变成Linux终端、JavaScript控制台、Excel页面等。这些Prompts收集自优秀的实践案例。

2023/04/24 22:50:342,571
#Prompts
比OpenAI原始的Whisper快70倍的开源语音识别模型Whisper JAX发布!

比OpenAI原始的Whisper快70倍的开源语音识别模型Whisper JAX发布!

Whisper是OpenAI在2022年9月份开源的自动语音识别模型。官方宣传其英语的识别水平与人类接近。而2个月后,官方就发布了Whisper V2版本,是第一个版本继续训练2.5倍得到,且加了正则化技术。而今天,一位网友Sanchit Gandhi发布了Whisper JAX,这是对原有版本的优化结果,识别速度最高达到原始模型的70倍!

2023/04/24 22:50:238,035
#ASR#JAX
大语言模型训练之前,数据集的处理步骤包含哪些?以LLaMA模型的数据处理pipeline(CCNet)为例

大语言模型训练之前,数据集的处理步骤包含哪些?以LLaMA模型的数据处理pipeline(CCNet)为例

大语言模型的训练是一个十分复杂的技术,不仅涉及到模型的开发与部署,还涉及到数据的获取。与常规的算法模型不同的是,大语言模型通常需要大量的数据处理步骤。本文是根据英国一位自动工程师总结的大语言模型训练之前的数据处理步骤和决策过程。

2023/04/24 22:50:024,886
#大语言模型#数据处理
百度文心一言发布,功能尝鲜概览

百度文心一言发布,功能尝鲜概览

今天下午,百度发布了文心一言大模型。这是一次对百度来说十分重要的发布会,也几乎是国内当前唯一一家将大模型作为一种大规模的服务推向市场的公司。本文主要介绍刚刚发布的文心一眼相关的能力。

2023/04/24 22:48:431,307
#大模型#文心一言
PyTorch 2.0发布——一个更快、更加Pythonic和灵活的PyTorch版本,让Tranformer运行更快!

PyTorch 2.0发布——一个更快、更加Pythonic和灵活的PyTorch版本,让Tranformer运行更快!

在去年12月2日的PyTorch大会上(参考链接:[重磅!PyTorch官宣2.0版本即将发布,最新torch.compile特性说明!](https://www.datalearner.com/blog/1051670030665432

2023/04/24 22:47:461,592
#python
能否用85000美元从头开始训练一个打败ChatGPT的模型,并在浏览器中运行?

能否用85000美元从头开始训练一个打败ChatGPT的模型,并在浏览器中运行?

尽管当前ChatGPT和GPT-4非常火热,但是高昂的训练成本和部署成本其实导致大部分个人、学术工作者以及中小企业难以去开发自己的模型。使得使用OpenAI的官方服务几乎成为了一种无可替代的选择。本文介绍的是一种低成本开发高效ChatGPT的思路,我认为它适合一些科研机构去做,也适合中小企业创新的方式。这里提到的思路涉及了一些最近发表的成果和业界的一些实践产出,大家可以参考!

2023/04/24 22:47:181,474
#Alpaca#ChatGPT
AI盛世如你所愿!昨天2个最新的开源“GPT”模型发布!

AI盛世如你所愿!昨天2个最新的开源“GPT”模型发布!

在最近的24个小时内,有2个开源的自然语言处理领域的开源预训练大模型发布。这两个模型都是类似GPT的Transformer模型,可以完成和ChatGPT类似的能力。最重要的是这2个模型完全开源!

2023/04/24 22:47:01932
#Cerebras-GPT#GPT
大模型追踪利器!斯坦福大学发布基础大模型追踪图谱Ecosystem Graphs

大模型追踪利器!斯坦福大学发布基础大模型追踪图谱Ecosystem Graphs

斯坦福大学发布的基础大模型追踪图谱Ecosystem Graphs,用图谱的方式给大家呈现了模型之间的联系,让人非常清楚明白追踪不同模型之间的关系。

2023/04/24 22:46:281,024
#大模型
“GPT”的模型太多无法选择?让大模型帮你选择大模型!浙江大学发布HuggingGPT!

“GPT”的模型太多无法选择?让大模型帮你选择大模型!浙江大学发布HuggingGPT!

随着ChatGPT的火爆以及MetaAI开源了LLaMA,各家公司好像一夜之间都有了各种ChatGPT模型的研发实力。而针对不同任务和应用构建的LLM更是层出不穷。那么,如何选择合适的模型完成特定的任务,甚至是使用多个模型完成一个复杂的任务似乎仍然很困难。为此,浙江大学与微软亚洲研究院联合发布了一个大模型写作系统HuggingGPT,可以根据输入的任务帮我们选择合适的大模型解决!

2023/04/24 22:46:062,997
#HuggingGPT#LLM
Previous
1...181920...39
Next

Topic Collections

RAG (Retrieval-Augmented Generation)Long Context (Large Language Models)AI Agent Practices

Hot Blogs

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8H5文件简介和使用

Today's Picks

  • Anthropic 最新 Agent 工程方案:使用双 Agent 架构让 AI 实现真正的长时自主工作
  • Deep Neural Networks and Tabular Data: A Survey——XGBoost依然是最优秀的算法模型
  • R语言数据库操作(不定时更新)
  • 深度学习之GRU神经网络
  • 网络爬虫之基础java集合操作篇
  • C/C++源代码是如何被最终执行的?
  • 新产品越来越近!OpenAI可能会推出全球最强个人助手Jarvis个人助理工具:OpenAI新商标Voice Engine透露出OpenAI正在做的事情!
ChatGLM-6B升级!清华大学开源VisualGLM-6B:一个可以在本地运行的读懂图片的语言模型!