统计、机器学习与编程知识的原创博客

★ 【置顶】推荐一个国内可以按分钟计费的4090显卡租用公有云，一个小时24GB显存的4090只需要2.37元——仙宫云

大模型的发展速度很快，对于需要学习部署使用大模型的人来说，显卡是一个必不可少的资源。使用公有云租用显卡对于初学者和技术验证来说成本很划算。DataLearnerAI在此推荐一个国内的合法的按分钟计费的4090显卡公有云服务提供商仙宫云，可以按分钟租用24GB显存的4090显卡公有云实例，非常具有吸引力~

4090显卡/仙宫云/显卡公有云/显卡租赁

检索增强生成（RAG）

大模型检索增强生成是一种结合了大规模语言模型的自动生成能力和针对特定数据的检索机制，以提供更准确、信息丰富的输出内容的技术。

查看RAG合集

Long Context

大模型对长上下文的处理能力在于它们能够理解和维持较长篇幅的文本连贯性，有助于提升质量，以及对复杂问题和讨论的理解和回应质量。

LongContext合集

AI Agent

大模型的AI Agent是一种高级智能系统，能够理解复杂的指令和查询，并以人类般的方式生成响应、执行任务或提供决策支持。

AI Agent合集

一文看懂如何初始化神经网络

深度学习的初始化非常重要，这篇博客主要描述两种初始化方法：一个是Kaiming初始化，一个是LSUV方法。文中对比了不同初始化的效果，并将每一种初始化得到的激活函数的输出都展示出来以查看每种初始化对层的输出的影响。当然，作者最后也发现如果使用了BatchNorm的话，不同的初始化方法结果差不多。说明使用BN可以使得初始化不那么敏感了。

2019/06/21 17:20:49

6343

深度学习/神经网络

最流行的用于预测的机器学习算法简介及其优缺点说明

预测问题一直是机器学习领域最重要的问题之一。很多算法包括回归、决策树等都是用来解决预测的常用算法。预测问题的核心是基于已有的有标签的数据来判断新数据的标签。一般来说，根据预测标签是离散的还是连续的可以分成分类问题和回归问题。注意，本篇博客主要是快速回顾描述各个模型的优缺点，因此不会对模型有很深的介绍。

2021/10/26 23:03:03

6344

机器学习/预测问题

Indian Buffet Process(印度自助餐过程)介绍

非参贝叶斯

2017/11/15 08:38:58

6481

非参贝叶斯

对偶规划问题

对偶问题（Dual Problem）是运筹学中一个很重要的概念，是基于原问题的约束条件和目标函数为基础构造而来。每一个线性规划的问题都存在一个与之对应的对偶问题。对偶问题在求解最优化问题时很有用。

2019/02/28 15:02:59

6485

广告分配/线性规划/运筹

如何抽取样本方差的分布

抽取样本方差的分布可以帮助我们生成很多其他分布的样本，例如生成一元高斯分布的样本就是可以通过方差分布来产生。这篇博客将描述如何抽取样本方差的分布。

2017/10/20 15:43:11

6539

抽样/数学/方差/统计

Ubuntu 命令行指定GPU 运行 Python 程序

2018/12/19 10:59:44

6557

GPU/linux/python

SCI已经被SCIE替代

2020年1月13日，Clarivate官网发布声明称SCI索引将被去除。未来全部使用SCIE代替期刊索引。

2022/04/18 19:33:44

6622

学术/学术期刊

贝叶斯统计中的计算方法简介

仿真抽样是给予贝叶斯方法第二春的重要角色。由于很多时候实际问题很复杂，我们无法精确求出后验密度，使用仿真抽样的方法我们可以获得近似的结果。这篇博客主要介绍了几种仿真抽样的方法。

2016-12-28 20:05:21

6646

MCMC/仿真/抽样方法/极大似然估计/极大后验估计/贝叶斯统计

Dask调度器简介

Dask支持多种调度器，从单线程、多线程、多进程到本地分布式和集群分布式，各种调度器在不同情况下有不同的作用，本文来源于Dask官方文档的翻译，主要向大家介绍这五种调度器的使用情景和方式。最后提供了如何在不同情境下设置Dask调度器的方法。

2020/05/24 18:34:06

6649

Dask/Python/分布式处理

多项式分布的贝叶斯推断

多项式分布是非常常见的分布，他是二项分布在多维上的推广。例如掷骰子结果中，1-6点出现的次数就是一个多项式分布。多项式分布在如主题建模中非常常见，本文将讲述多项式分布的贝叶斯推导过程。

2017/12/01 22:28:46

6678

分布/多项式分布/统计基础/贝叶斯

python中configparser读取配置文件的大小写和重复项问题

使用配置文件控制程序的运行是一种非常常见的编程技巧，因此配置文件的解析是所有编程语言中都不可缺少的模块。在Python中，通常使用configparser模块进行配置文件解析。但是configparser解析配置文件有几个常见问题：读取当前项目下某个位置的配置文件、重复配置项的处理以及大小写配置项的读取。本文将描述如何解决这三个问题。

2021/06/14 11:23:21

6767

python/编程