Search blog

加载中...

DataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

Leaderboards
模型对比
Datasets

资源

Tutorials
Editorial
Tool directory

关于

关于我们
隐私政策
数据收集方法
联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款

Original Blog

Original AI Tech Blogs

Explore the latest AI and LLM news and technical articles, covering original content and practical cases in machine learning, deep learning, and natural language processing.

Sort by

Sort by Date Sort by Views

如何基于PyTorch来优化大模型训练的内存（显存）使用：8种方法总结

如何基于PyTorch来优化大模型训练的内存（显存）使用：8种方法总结

大模型虽然效果很好，但是对资源的消耗却非常高。更麻烦的其实不是训练过程慢，而是峰值内存（显存）的消耗直接决定了我们的硬件是否可以来针对大模型进行训练。最近LightningAI官方总结了使用Fabric降低大模型训练内存的方法。但是，它也适用于其它场景。因此，本文总结一下相关的方法。

2023/07/04 22:24:113,988

#大模型微调 #模型压缩

吴恩达AI系列短课再添精品课程：如何基于LangChain使用LLM构建私有数据的问答系统和聊天机器人

吴恩达AI系列短课再添精品课程：如何基于LangChain使用LLM构建私有数据的问答系统和聊天机器人

吴恩达的DeepLearningAI在今天和LangChain的创始人一起合作发布了一个最新的基于LangChain使用LLM构建私有数据的问答系统和聊天机器人的课程（课程名：《LangChain: Chat with Your Data》）。LangChain是大语言模型应用开发领域目前最火的开源库。集成十分多的优秀特性，可以帮助我们非常简单构建LLM的应用。

2023/07/06 11:33:101,534

#LangChain #LLM

使用LangChain做大模型开发的一些问题：来自Hacker News的激烈讨论~

使用LangChain做大模型开发的一些问题：来自Hacker News的激烈讨论~

LangChain是当前大模型应用开发领域里面最火热的框架。由于其提供了丰富的数据访问接口、各种大模型的交互接口以及很多构造大模型应用所需要的方法与实践工具，受到了很多人的关注。然而，今天Hacker News上的一位开发者直接提出LangChain是一个无用的框架，引起了很多人的共鸣。很多人都表示，在实际开发中，LangChain有很多问题，可能并不适合用来做大模型应用开发。

2023/07/09 23:15:292,084

#LangChain #LLM应用开发

未经证实的GPT-4技术细节，关于GPT-4的参数数量、架构、基础设施、训练数据集、成本等信息泄露，仅供参考

未经证实的GPT-4技术细节，关于GPT-4的参数数量、架构、基础设施、训练数据集、成本等信息泄露，仅供参考

几个小时前SemiAnalysis的DYLAN PATEL和DYLAN PATEL发布了一个关于GPT-4的技术信息，包括GPT-4的架构、参数数量、训练成本、训练数据集等。本篇涉及的GPT-4数据是由他们收集，并未公开数据源。但是内容还是有一定参考性，大家自行判断。

2023/07/11 09:36:141,795

ChatGPT官方代码解释器插件Code-Interpreter大揭秘：Code-Interpreter背后都有什么（执行环境、硬件资源、包含的Python库等）？

ChatGPT官方代码解释器插件Code-Interpreter大揭秘：Code-Interpreter背后都有什么（执行环境、硬件资源、包含的Python库等）？

Code Interpreter是ChatGPT官方提供的一个插件。使用这个插件之后，ChatGPT可以通过生成Python代码来解决你的问题。在上周，Code Interperter已经完全开放给所有的付费用户，在大家使用了一段时间之后，已经有很多人通过机智的prompt来获取了Code Interpreter背后的执行环境和系统prompt信息等。本文针对这些获取的信息做一个总结，供大家参考。

2023/07/12 22:56:482,123

#ChatGPT #CodeInterpreter

最像OpenAI的企业Anthropic的重大产品更新：GPT-4最强竞争模型Claude2发布！免费！具有更强的代码能力与更长的上下文！

最像OpenAI的企业Anthropic的重大产品更新：GPT-4最强竞争模型Claude2发布！免费！具有更强的代码能力与更长的上下文！

Anthropic是一家专注于人工智能（AI）研究的公司，由OpenAI的前首席科学家Ilya Sutskever和Dario Amodei共同创立。Claude是Anthropic公司发布的基于transformer架构的大语言模型，被认为是最接近ChatGPT的商业产品。今天，Anthropic宣布Claude 2正式开始上架。

2023/07/12 23:04:201,527

#Anthropic #Claude

重磅！ChatGLM2-6B免费商用了~

重磅！ChatGLM2-6B免费商用了~

在七月初，ChatGLM-6B免费商用之后，ChatGLM2-6B宣布免费商用了！

2023/07/14 23:28:312,187

#ChatGLM-6B #ChatGLM2-6B

GPT4All：一个可以直接在本地运行各大商业友好的开源大模型解决方案

GPT4All：一个可以直接在本地运行各大商业友好的开源大模型解决方案

NomicAI推出了GPT4All这款软件，它是一款可以在本地运行各种开源大语言模型的软件。GPT4All将大型语言模型的强大能力带到普通用户的电脑上，无需联网，无需昂贵的硬件，只需几个简单的步骤，你就可以使用当前业界最强大的开源模型。

2023/07/15 22:53:297,580

#GPT4All #大模型软件

GPT4All发布可以在CPU+Windows的消费级硬件上生成embeddings向量的模型：低成本、高质量、易上手的embedding生成新选择

GPT4All发布可以在CPU+Windows的消费级硬件上生成embeddings向量的模型：低成本、高质量、易上手的embedding生成新选择

文本embedding是当前大模型应用中一个十分重要的角色。在长上下文支持、私有数据问答等方面有非常重要的应用。但是相比较开源领域快速发布的大模型节奏，开源的embedding模型和数据却非常少。今天，GPT4All宣布在其软件中增加embedding的支持，这是一个完全免费且可商用的产品，最重要的是可以在我们本地用CPU来做推理。

2023/07/15 23:39:481,456

#embedding #GPT4All

如何让开源大模型支持ChatGPT的Code Interpreter能力：基于LangChain的开源项目Code Interpreter API

如何让开源大模型支持ChatGPT的Code Interpreter能力：基于LangChain的开源项目Code Interpreter API

ChatGPT的Code Interpreter插件让ChatGPT突破了大语言模型本身只能做文本处理的限制，使其可以通过生成并执行Python代码来实现强大的数据分析、图片生成、视频数据处理等操作，大大拓展了ChatGPT的实用范围和价值。在此前的文章中，我们已经分析了Code Interpreter插件的官方实现。而今天，LangChain的官方博客也推出了一种类似的开源方案，让开源模型也可以实现ChatGPT的Code Interperter插件。我们简要描述一下这个方案。

2023/07/18 00:32:473,067

#ChatGPT #CodeInterpreter

重磅！Meta发布LLaMA2，最高700亿参数，在2万亿tokens上训练，各项得分远超第一代LLaMA~完全免费可商用！

重磅！Meta发布LLaMA2，最高700亿参数，在2万亿tokens上训练，各项得分远超第一代LLaMA~完全免费可商用！

LLaMA是由Meta开源的一个大语言模型，是最近几个月一系列开源模型的基础模型。包括著名的vicuna系列、LongChat系列等都是基于该模型微调得到。可以说，LLaMA的开源促进了大模型在开源界繁荣发展。而刚刚，微软官方宣布Azure上架LLaMA2模型！这意味着LLaMA2正式发布！

2023/07/19 00:45:164,511

Llama2模型量化结果地址

Llama2模型量化结果地址

2023/07/19 21:21:501,343

#LLaMA2 #模型压缩

大模型驱动的自动代理（AI Agent）：将语言模型的能力变成通用能力的一种方式——来自OpenAI安全团队负责人的解释与观点

大模型驱动的自动代理（AI Agent）：将语言模型的能力变成通用能力的一种方式——来自OpenAI安全团队负责人的解释与观点

当前大模型本质是一种大语言模型（Large Language Models, LLM)，其核心能力是对语言的处理。良好的意图识别和文本生成能力让LLM超越了之前的模型，有了巨大的实用价值。但是，现实问题涉及了很多超越语言模型之外的能力，如基于最新数据的文本摘要、向用户提供实时数据分析和可视化结果、为代码提供debugging等。目前，让LLM解决这些问题的一个最有前景的方向就是建立大模型驱动的自动代理。也就是让LLM作为核心控制者来学会使用不同工具，进而完成最终任务。

2023/07/20 16:35:005,209

OpenAI开放自定义用户指令，让ChatGPT永久记住这些自定义系统prompt：你的ChatGPT按照你的偏好变成一个专属助理了~

OpenAI开放自定义用户指令，让ChatGPT永久记住这些自定义系统prompt：你的ChatGPT按照你的偏好变成一个专属助理了~

几个小时前，OpenAI官方宣布开放ChatGPT的系统指令设置功能。主要就是现在你可以为自己的ChatGPT设置一个系统级别的指令，按照你的偏好，来回复所有问题。

2023/07/21 08:24:581,352

#ChatGPT #OpenAI

EleutherAI、MetaAI、StabilityAI、伦敦大学等合作的最新关于大语言模型的11个应用方向和16个挑战总结：来自688篇参考文献与业界实践

EleutherAI、MetaAI、StabilityAI、伦敦大学等合作的最新关于大语言模型的11个应用方向和16个挑战总结：来自688篇参考文献与业界实践

前天，EleutherAI、MetaAI、StabilityAI、伦敦大学等研究人员合作提交了一个关于大语言模型（Large Language Model，LLM）的挑战和应用的论文综述，引用了688篇参考文献总结了当前LLM的主要挑战和应用方向。

2023/07/22 23:13:13830

一文总结13个国内外ChatGPT平替产品：是时候可以不那么依赖ChatGPT了~

一文总结13个国内外ChatGPT平替产品：是时候可以不那么依赖ChatGPT了~

ChatGPT是最近半年多全球最火的产品。去年11月底发布之后，ChatGPT仅仅2个月时间就收获了1亿的月活。尽管在前几个月，ChatGPT是一枝独秀的存在，几乎没有任何可以与其竞争的产品与服务。然而在2023年7月份快结束的今天，市场上已经有相当多优秀的产品可供大家使用。

2023/07/23 22:41:014,463

#ChatGPT #在线聊天机器人

智源人工智能研究院开源可商用的编程大模型：悟道·天鹰AquilaCode系列，超过清华大学CodeGeeX

智源人工智能研究院开源可商用的编程大模型：悟道·天鹰AquilaCode系列，超过清华大学CodeGeeX

Aquila-7B是北京人工智能研究院（BAAI）开源的一个可商用大语言模型。因为其良好的推理效果和友好的商用协议，使用的人较多。今天，BAAI再次开源2个基于Aquila-7B微调的编程大模型：AquilaCode-7B-multi和AquilaCode-7B-py。

2023/07/24 12:59:321,376

#Aquila #编程大模型

智谱AI发布第二代CodeGeeX编程大模型：CodeGeeX2-6B，最低6GB显存可运行，基于ChatGLM2-6B微调

智谱AI发布第二代CodeGeeX编程大模型：CodeGeeX2-6B，最低6GB显存可运行，基于ChatGLM2-6B微调

编程大模型是大语言模型的一个非常重要的应用。刚刚，清华大学系创业企业智谱AI开源了最新的一个编程大模型，CodeGeeX2-6B。这是基于ChatGLM2-6B微调的针对编程领域的大模型。

2023/07/25 15:26:412,791

#ChatGLM2-6B #CodeGeeX

CerebrasAI开源可以在iPhone上运行的30亿参数大模型：BTLM-3B-8K，免费可商用，支持最高8K上下文输入，仅需3GB显存

CerebrasAI开源可以在iPhone上运行的30亿参数大模型：BTLM-3B-8K，免费可商用，支持最高8K上下文输入，仅需3GB显存

大模型的进展非常快，但是如何在移动端部署和使用依然是一个非常大的挑战。今天，CerebrasAI联合Opentensor一起开源了一个30亿参数规模的模型BTLM-3B-8K，官方宣称其性能接近70亿参数规模的大模型，但是运行的资源却很低，最低量化版本只需要不到4GB显存即可。

2023/07/25 17:10:341,127

#BTLM-3B-8K #大模型压缩

如何基于Gradio构建生成式AI的应用：吴恩达联合HuggingFace推出最新1小时短课

如何基于Gradio构建生成式AI的应用：吴恩达联合HuggingFace推出最新1小时短课

ChatGPT是属于生成式AI的一种应用。由于其强大的效果已经变成了当前最主流的一种AI方案。而构建生成式AI应用的一个重要方向是构建友好的web形态的demo让用户能快速体验。Gradio就是这样一种开源方案，也是当前最流行的一种快速构建AI Web应用的方案。昨天吴恩达的DeepLearningAI与HuggingFace共同推出了最新的一期短课程《Building Generative AI Applications with Gradio》，教大家如何使用Gradio快速构建生成式AI的应用。

2023/07/27 09:56:251,146

Open ChatGPT：一个整合了GPT-4和多模态能力的ChatGTP服务商，免费可用，月租也很合理~

Open ChatGPT：一个整合了GPT-4和多模态能力的ChatGTP服务商，免费可用，月租也很合理~

恰巧，我最近发现了一个网站——Open ChatGPT，网址是 https://open-chat-gpt.com/cn。简单来说，该网站调用 ChatGPT-4 (最新版) 的 API，让用户创建各种指定角色，服务于生活跟工作。不仅如此，还支持连ChatGPT官网都还没用上的AI画图功能。目前，相比其他网页各种限制使用次数的，这网站非常可贵在于可以无限次免费使用ChatGPT-4...

2023/07/28 22:52:421,386

#ChatGPT服务 #OpenChatGPT

超越所有开源编程大模型和GPT-3.5！华为发布150亿参数规模的编程大模型PanGu-Coder2

超越所有开源编程大模型和GPT-3.5！华为发布150亿参数规模的编程大模型PanGu-Coder2

华为盘古大模型一直是国内大模型领域比较早的先行者，不过由于该模型并不针对个人开放，因此很少有人可以体验到该模型的效果。但是，盘古大模型一直在不断发展。2023年7月27日，华为发布最新的论文，展示了新一代盘古大模型的编程能力。该模型名字为PanGu-Coder2，论文的数据显示该模型目前超越所有开源编程大模型的效果，也超过GPT-3.5，接近GPT-4。

2023/07/29 00:02:542,034

#盘古大模型 #编程大模型

OpenRouterAI：一个提供目前最优秀大模型API的网站，支持GPT-4 32k和Claude v2接口！

OpenRouterAI：一个提供目前最优秀大模型API的网站，支持GPT-4 32k和Claude v2接口！

今天发现另一个可以替代官方API的接口网站，OpenRouter。尽管OpenAI和Anthropic的模型非常好，但是开发者使用需要申请API，但是，这两个服务的API申请非常麻烦。而OpenRouter目前提供了这些接口的付费调用，价格与官网完全一致，十分良心！

2023/07/31 21:26:1525,623

生成式AI领域拓展！MetaAI开源AudioCraft：一个支持AudioGen、MusicGen等模型的音频生成开发框架

生成式AI领域拓展！MetaAI开源AudioCraft：一个支持AudioGen、MusicGen等模型的音频生成开发框架

在过去的几年里，我们看到了AI在图像、视频和文本生成方面的巨大进步。然而，音频生成领域的进展却相对滞后。MetaAI这次再为开源贡献重磅产品：AudioCraft，一个支持多个音频生成模型的音频生成开发框架。

2023/08/03 11:45:06865

#AudioCraft #音频生成模型

1...222324...39

Topic Collections

RAG (Retrieval-Augmented Generation)Long Context (Large Language Models)AI Agent Practices

Hot Blogs

1Dirichlet Distribution（狄利克雷分布）与Dirichlet Process（狄利克雷过程）
2回归模型中的交互项简介（Interactions in Regression）
3贝塔分布（Beta Distribution）简介及其应用
4矩母函数简介（Moment-generating function）
5普通最小二乘法（Ordinary Least Squares，OLS）的详细推导过程
6使用R语言进行K-means聚类并分析结果
7深度学习技巧之Early Stopping（早停法）
8H5文件简介和使用

Today's Picks

Scale AI 发布 SWE-Bench Pro 评测：AI 软件工程代理的新基准
轮盘赌java算例
下拉列表和按钮
tokens危机到来该怎么办？新加坡国立大学最新研究：为什么当前的大语言模型的训练都只有1次epoch？多次epochs的大模型训练是否有必要？
IMO-Bench：谷歌发布的用于大模型数学推理的鲁棒评估基准
softmax作为输出层激活函数的反向传播推导
马斯克的X.AI平台即将发布的大模型Grōk AI有哪些能力？新消息泄露该模型支持2.5万个字符上下文！

如何评估向量大模型在多种任务上的表现？Massive Text Embedding Benchmark（MTEB）评测介绍