统计、机器学习与编程知识的原创博客

★ 【置顶】推荐一个国内可以按分钟计费的4090显卡租用公有云，一个小时24GB显存的4090只需要2.37元——仙宫云

大模型的发展速度很快，对于需要学习部署使用大模型的人来说，显卡是一个必不可少的资源。使用公有云租用显卡对于初学者和技术验证来说成本很划算。DataLearnerAI在此推荐一个国内的合法的按分钟计费的4090显卡公有云服务提供商仙宫云，可以按分钟租用24GB显存的4090显卡公有云实例，非常具有吸引力~

4090显卡/仙宫云/显卡公有云/显卡租赁

检索增强生成（RAG）

大模型检索增强生成是一种结合了大规模语言模型的自动生成能力和针对特定数据的检索机制，以提供更准确、信息丰富的输出内容的技术。

查看RAG合集

Long Context

大模型对长上下文的处理能力在于它们能够理解和维持较长篇幅的文本连贯性，有助于提升质量，以及对复杂问题和讨论的理解和回应质量。

LongContext合集

AI Agent

大模型的AI Agent是一种高级智能系统，能够理解复杂的指令和查询，并以人类般的方式生成响应、执行任务或提供决策支持。

AI Agent合集

数学推理能力超过ChatGPT-3.5：微软与中科院研究人员合作最新的开源大模型WizardMath发布！开源模型第一，免费商用授权！

WizardLM是微软联合北京大学开源的一个大语言模型。此前，发布的WizardLM和WizardCoder都是业界开源领域最强的大模型。其中，前者是针对指令优化的大模型，而后者则是针对编程优化的大模型。而此次WizardMath则是他们发布的第三个大模型系列，主要是针对数学推理优化的大模型。在GSM8K的评测上，WizardMath得分超过了ChatGPT-3.5、Claude Instant-1等闭源商业模型，得分十分逆天！

2023/08/13 23:45:44

1384

WizardLM/WizardMath/数学推理大模型

GPT-4o再度更新：OpenAI发布GPT-4o(2025-03-26)版本模型，大幅提升复杂指令遵循能力，在LM Arena评测超过GPT-4.5，所有类别评测仅次于Gemini 2.5 Pro

OpenAI再次发布GPT-4o更新版本，版本号为GPT-4o(2025-03-26)，本次发布的GPT-4o模型在性能、易用性和协作能力上迎来多项优化，进一步提升了模型的直觉性、创造力和任务执行能力。此次更新聚焦于 STEM 与编程问题解决、指令遵循精度以及自然交互体验，各方面评测进步明显，超过了GPT-4.5。

2025/03/28 08:02:41

1383

GPT-4o/GPT-4o(2025-03-26)/OpenAI

吴恩达AI系列短课再添精品课程：如何基于LangChain使用LLM构建私有数据的问答系统和聊天机器人

吴恩达的DeepLearningAI在今天和LangChain的创始人一起合作发布了一个最新的基于LangChain使用LLM构建私有数据的问答系统和聊天机器人的课程（课程名：《LangChain: Chat with Your Data》）。LangChain是大语言模型应用开发领域目前最火的开源库。集成十分多的优秀特性，可以帮助我们非常简单构建LLM的应用。

2023/07/06 11:33:10

1382

LangChain/LLM/吴恩达/教程

OpenAI最新的文本生成图像大模型DALL·E3发布！生成的图像不忽略每一个细节的文本！

DALL·E 系列是由 OpenAI 开发的一系列基于大型语言模型的文本到图像生成系统。它们的核心目标是将文本描述转化为高度精确的图像。DALL·E2在2022年4月发布，但是一直没有公开使用，一年半后的2023年9月21日，OpenAI发布第三代DALL·E3，并承诺将与ChatGPT集成。

2023/09/21 09:07:48

1377

DALL·E/DALL·E3/OpenAI/文本生成图像

重磅！ChatGPT加入多模态能力，可以听语音、生成语音并理解图片了！

几分钟之前，OpenAI宣布ChatGPT支持多模态，目前已经支持语音的输入、语音的输出、理解图片的输入！不过目前似乎仅限于客户端~官方说的是未来2周内企业和Plus用户可以使用，后面会普及到其它用户！

2023/09/26 10:30:50

1376

ChatGPT/OpenAI/多模态

正则化和数据增强对模型的影响并不总是好的：The Effects of Regularization and Data Augmentation are Class Dependent

正则化是一种基本技术，通过限制模型的复杂性来防止过度拟合并提高泛化性能。目前的深度网络严重依赖正则化器，如数据增强（DA）或权重衰减，并采用结构风险最小化，即交叉验证，以选择最佳的正则化超参数。然而，正则化和数据增强对模型的影响也不一定总是好的。来自Meta AI研究人员最新的论文发现，正则化是否有效与类别高度相关。

2022/04/11 22:52:18

1375

论文快讯

如何解决大模型微调过程中的知识遗忘？香港大学提出有监督微调新范式并开源新模型LLaMA Pro

大语言模型一个非常重要的应用方式就是微调（fine-tuning）。微调通常需要改变模型的预训练结果，即对预训练结果的参数继续更新，让模型可以在特定领域的数据集或者任务上有更好的效果。但是微调一个严重的副作用是可能会让大模型遗忘此前预训练获得的知识。为此，香港大学研究人员推出了一种新的微调方法，可以保证模型原有能力的基础上提升特定领域任务的水平，并据此开源了一个新的模型LLaMA Pro。

2024/01/09 12:09:47

1368

LLaMAPro/大语言模型微调/微调

最近一段时间深度学习大模型的重要进展（2022年4月初）

今晚已经是本周的最后一天了，最近的一些深度学习算法方面的进展做个总结吧，感觉都是挺不错的，供大家参考。

2022/04/10 23:34:55

1366

论文快讯

关于算法的时间复杂度的简单理解

在程序设计和编程中，我们经常会看到关于时间复杂度的讨论。比如为什么A方法比B方法好？是因为A方法的时间复杂度低。那么，这里的时间复杂度如何去理解，又怎么计算呢？常见的O(n)的含义是什么？本文将简单的解释这个概念。

2022/02/20 16:21:09

1364

数据结构/算法复杂度

OpenAI发布全新文本生成视频大模型Sora，可以生成无比逼真的最长60秒的视频，且生成的视频尺寸可以任意指定

OpenAI宣布发布全新的Diffusion大模型Sora，这是一个可以生成最长60秒视频的视频生成大模型，最大的特点是可以生成非常逼真的电影画面版的视频。

2024/02/17 09:45:12

1362

OpenAISora/Sora/视频生成大模型

吴恩达再开新课程！如何基于大语言模型实现更强大的语义搜索课程！

刚刚，吴恩达宣布deeplearning.ai 与 Cohere 合作推出了一个新课程：“Large Language Models with Semantic Search”。这个课程主要教授大家如何使用LLMs进行语义搜索，还提供了大量实践经验，来克服搜索结果和准确性等挑战。

2023/08/16 23:48:34

1351

LLM/吴恩达/搜索引擎/教程/语义检索

能否用85000美元从头开始训练一个打败ChatGPT的模型，并在浏览器中运行？

尽管当前ChatGPT和GPT-4非常火热，但是高昂的训练成本和部署成本其实导致大部分个人、学术工作者以及中小企业难以去开发自己的模型。使得使用OpenAI的官方服务几乎成为了一种无可替代的选择。本文介绍的是一种低成本开发高效ChatGPT的思路，我认为它适合一些科研机构去做，也适合中小企业创新的方式。这里提到的思路涉及了一些最近发表的成果和业界的一些实践产出，大家可以参考！

2023/04/24 22:47:18

1348

Alpaca/ChatGPT/LLaMA/大模型/大语言模型/生成模型

OpenAI发布的GPT-4o能力总结，数学推理能力超过所有模型，价格下降一半！

OpenAI在GPT-4发布一年之后再次更新其基础模型，发布最新的GPT-4o模型，其中o代表的是omni，即“全能”的意思。GPT-4o相比较此前最大的升级是对多模态的支持以及性能的提升。GPT-4o在各方面比GPT-4更强，但是速度更快，开发者接口的价格则只有一半！

2024/05/14 08:14:48

1334

GPT-4o/OpenAI/多模态大模型

如何提高大模型在超长上下文的表现？Claude实验表明加一句prompt立即提升效果~

Claude 2.1版本的模型上下文长度最高拓展到200K，也是目前商用领域上下文长度支持最长的模型之一。但是，在模型发布不久之后，有人测试发现模型在超过20K之后效果下降明显。但是Anthropic官方发布了一个说明解释这不是Claude模型本身在超长上下文的真实原因，主要是模型拒绝回答一些与文章主体不符的内容，实际中只需要一句prompt即可提高性能，将模型在超长上下文的水平准确率从27%提高到98%。

2023/12/07 19:14:47

1326

Claude2.1/long-context/超长上下文