统计、机器学习与编程知识的原创博客

★ 【置顶】推荐一个国内可以按分钟计费的4090显卡租用公有云，一个小时24GB显存的4090只需要2.37元——仙宫云

大模型的发展速度很快，对于需要学习部署使用大模型的人来说，显卡是一个必不可少的资源。使用公有云租用显卡对于初学者和技术验证来说成本很划算。DataLearnerAI在此推荐一个国内的合法的按分钟计费的4090显卡公有云服务提供商仙宫云，可以按分钟租用24GB显存的4090显卡公有云实例，非常具有吸引力~

4090显卡/仙宫云/显卡公有云/显卡租赁

检索增强生成（RAG）

大模型检索增强生成是一种结合了大规模语言模型的自动生成能力和针对特定数据的检索机制，以提供更准确、信息丰富的输出内容的技术。

查看RAG合集

Long Context

大模型对长上下文的处理能力在于它们能够理解和维持较长篇幅的文本连贯性，有助于提升质量，以及对复杂问题和讨论的理解和回应质量。

LongContext合集

AI Agent

大模型的AI Agent是一种高级智能系统，能够理解复杂的指令和查询，并以人类般的方式生成响应、执行任务或提供决策支持。

AI Agent合集

使用卷积神经网络进行手写识别

本文是发在Medium上的一篇博客：《Handwritten Equation Solver using Convolutional Neural Network》。本文是原文的翻译。这篇文章主要教大家如何使用keras训练手写字符的识别，并保存训练好的模型到本地，以及未来如何调用保存到模型来预测。

2019/06/23 22:35:53

3474

卷积神经网络/深度学习

text-davinci-003后继者！OpenAI发布了一个新的补全大模型：GPT-3.5-Turbo-Instruct，完全的指令模型，没有聊天优化

OpenAI最新发布了GPT-3.5-Turbo-Instruct，这是一款强大的指令遵循大模型。尽管官方没有发布官方博客介绍，但我们将在本文中详细探讨这一模型的特点以及其在人工智能领域的价值。

2023/09/19 10:09:30

3491

GPT-3.5-Turbo-Instruct/指令大模型

解决大语言模型的长输入限制：MetaAI发布MegaByte最高支持几百万上下文输入！

尽管OpenAI的ChatGPT很火爆，但是这类大语言模型有一个非常严重的问题就是对输入的内容长度有着很大的限制。例如，ChatGPT-3.5的输入限制是4096个tokens。MetaAI在前几天提交了一个论文，提出了MegaByte方法，几乎可以让模型接受任意长度的限制！

2023/10/09 22:43:09

3504

long-context/MegaByte/长上下文/长输入

比Office Copilot更快一步~基于AI大语言模型生成PPT、Word和网页的应用的新产品测试~Gamma.APP，PPT打工人必备

大语言模型（Large Language Model，LLM）已经在很多领域都产生了巨大的影响。但是其中最为大家所期待的功能之一就是基于idea生成PPT、Word文档等。此前微软Office Copilot已经吸引了很多人的关注，但目前依然没有开放。而今天DataLearnerAI发现了一个类似的产品，来自洛杉矶初创企业Gamma的产品目前已经支持基于文本生成PPT、Word和网页应用了，本文带大家简单体验一下这个产品。

2023/08/26 14:37:59

3512

AI生成PPT/大模型应用/生成PPT

元宇宙企业Roblox究竟是一家什么样的企业

美国有一家上市企业，叫做Roblox，号称是元宇宙龙头企业，被市场炒的火热。这家企业到底是什么样的业务，可以被认为是一家纯正的元宇宙企业。本文根据我收集的资料，为大家介绍一下。

2021/11/19 23:05:24

3523

元宇宙/初创企业

MetaGPT技术全解析：另一个AutoGPT，一个可以替代小型软件开发团队的配备齐全的软件开发GPT，产品经理、系统设计、代码实现一条龙

AI Agent被很多人认为是未来大模型的发展方向。此前，OpenAI安全团队负责人人Lilian Weng也发布了一篇详细介绍AI自动代理机器人的博客，引起了很多人的关注。7月份发布的MetaGPT是一个全新的AI Agent项目，它基于GPT-4提供了专注于软件开发的自动代理框架，几乎可以理解为配备了产品经历、系统设计师、程序员的一个小团队，可以基于原始的需求直接生成最后的代码项目。本文主要介绍一下这个项目，并分析一下背后的实现方式。

2023/08/07 16:52:41

3535

AIAgent/AutoGPT/MetaGPT

Embedding开源模型重磅玩家：北京智源人工智能研究院最新Embedding模型发布！登顶MTEB，免费商用授权！

Embedding模型作为大语言模型（Large Language Model，LLM）的一个重要辅助，是很多LLM应用必不可少的部分。但是，现实中开源的Emebdding模型却很少。最近，北京智源人工智能研究院（BAAI）开源了BGE系列Embedding模型，不仅在MTEB排行榜中登顶冠军，还是免费商用授权的大模型，支持中文，应该可以满足相当多人的需要。

2023/08/08 20:26:46

3547

BGE/Embedding/Embedding大模型

编程语言（Programming Language）、汇编语言（Assembly Language, ASM）、机器语言（Machine Language/Code）的区别和简介

在编程的世界中，有不同层次的语言（language），这些语言有时候也称代码（code）。本文将简单介绍编程语言（Programming Language）、汇编语言（Assembly Language, ASM）、机器语言（Machine Language/Code）的区别。

2021/09/23 17:29:50

3602

汇编语言/编程/编程语言

大模型评测基准AIME 2024介绍

2024年，美国数学邀请赛（AIME）成为评估大型语言模型（LLM）数学推理能力的重要基准。AIME是一项备受尊崇的考试，包含15道题，考试时间为3小时，旨在考察美国顶尖高中生在各类数学领域的复杂问题解决能力。

2025/08/11 16:56:23

3612

SWE-Bench/大模型编程能力/大模型评测/大模型评测基准

Dask的Merge操作性能对比

在前面的博客中，我们已经对`Dask`做了一点简单的介绍了，在这篇博客中我们来对比一下`Dask`的`DataFrame`在不同条件下的运算性能，主要是连接操作的性能（merge)。

2020/05/24 18:32:52

3625

dask/python/分布式计算

阿里巴巴开源国内最大参数规模大语言模型——高达720亿参数规模的Qwen-72B发布！还有一个可以在手机上运行的18亿参数的Qwen-1.8B

Qwen系列是阿里巴巴开源的一系列大语言模型。在此前的开源中，阿里巴巴共开源了3个系列的大模型，分别是70亿参数规模和140亿参数规模的Qwen-7B和Qwen-14B，还有一个是多模态大模型Qwen-VL。而此次阿里巴巴开源了720亿参数规模的Qwen-72b，是目前国内最大参数规模的开源大语言模型，应该也是全球范围内首次有和Llama2-70b同等规模的大语言模型开源。

2023/12/01 08:37:44

3627

Qwen-72B/Qwen大模型/阿里巴巴

支持超长上下文输入的大语言模型评测和总结——ChatGLM2-6B表现惨烈，最强的依然是商业模型GPT-3.5与Claude-1.3

目前开源领域已经有一些模型宣称支持了8K甚至是更长的上下文。那么这些模型在长上下文的支持上表现到底如何？最近LM-SYS发布了LongChat-7B和LangChat-13B模型，最高支持16K的上下文输入。为了评估这两个模型在长上下文的表现，他们对很多模型在长上下文的表现做了评测，让我们看看这些模型的表现到底怎么样。

2023/07/02 09:40:48

3629

LLM/long-context/开源大模型/超长上下文