Original Blog

Original AI Tech Blogs

Explore the latest AI and LLM news and technical articles, covering original content and practical cases in machine learning, deep learning, and natural language processing.

Sort by

Sort by Date Sort by Views

Dask调度器简介

Dask支持多种调度器，从单线程、多线程、多进程到本地分布式和集群分布式，各种调度器在不同情况下有不同的作用，本文来源于Dask官方文档的翻译，主要向大家介绍这五种调度器的使用情景和方式。最后提供了如何在不同情境下设置Dask调度器的方法。

2020/05/24 18:34:067,128

#Dask #Python

最流行的用于预测的机器学习算法简介及其优缺点说明

预测问题一直是机器学习领域最重要的问题之一。很多算法包括回归、决策树等都是用来解决预测的常用算法。预测问题的核心是基于已有的有标签的数据来判断新数据的标签。一般来说，根据预测标签是离散的还是连续的可以分成分类问题和回归问题。注意，本篇博客主要是快速回顾描述各个模型的优缺点，因此不会对模型有很深的介绍。

2021/10/26 23:03:037,041

#机器学习 #预测问题

多项式分布的贝叶斯推断

多项式分布是非常常见的分布，他是二项分布在多维上的推广。例如掷骰子结果中，1-6点出现的次数就是一个多项式分布。多项式分布在如主题建模中非常常见，本文将讲述多项式分布的贝叶斯推导过程。

2017/12/01 22:28:466,991

#分布 #多项式分布

推荐一个国内可以按分钟计费的4090显卡租用公有云，一个小时24GB显存的4090只需要2.37元——仙宫云

贝叶斯统计中的计算方法简介

仿真抽样是给予贝叶斯方法第二春的重要角色。由于很多时候实际问题很复杂，我们无法精确求出后验密度，使用仿真抽样的方法我们可以获得近似的结果。这篇博客主要介绍了几种仿真抽样的方法。

2016-12-28 20:05:216,930

#MCMC #仿真

重磅！第二代ChatGLM发布！清华大学THUDM发布ChatGLM2-6B：更快更准，更低成本更长输入！

ChatGLM-6B是国产开源大模型领域最强大的的大语言模型。因其优秀的效果和较低的资源占用在国内引起了很多的关注。2023年6月25日，清华大学KEG和数据挖掘小组（THUDM）发布了第二代ChatGLM2-6B。

2023/06/25 22:45:146,905

#ChatGLM-6B #ChatGLM2-6B

当前业界最优秀的8个编程大模型简介：从最早的DeepMind的AlphaCode到最新的StarCoder全解析~

大语言模型中一个非常重要的内容就是关于代码的支持。通常，基于代码数据训练的模型不仅在代码补全方面有着更好地支持，也可能是大语言模型逻辑能力的部分来源。本文将总结目前业界专门针对代码补全（生成）方面而做的8个大模型。

2023/05/07 23:47:246,904

#编程 #编程大模型

智谱AI发布国产最强大模型GLM4，理解评测与数学能力仅次于Gemini Ultra和GPT-4，编程能力超过Gemini-pro，还有对标GPTs商店的GLMs

GLM4是智谱AI发布的第四代基座大语言模型，全称General Language Model，最早由清华大学KEG小组再2021年发布。这个基座模型也是著名的开源国产大模型ChatGLM系列的基座模型。本次发布的第四代GLM4的能力相比此前的基座模型提升了60%，已经与世界最强模型Gemini Ultra和GPT-4接近！

2024/01/17 22:27:216,898

#ChatGLM #GLM4

对偶规划问题

对偶问题（Dual Problem）是运筹学中一个很重要的概念，是基于原问题的约束条件和目标函数为基础构造而来。每一个线性规划的问题都存在一个与之对应的对偶问题。对偶问题在求解最优化问题时很有用。

2019/02/28 15:02:596,870

#广告分配 #线性规划

Indian Buffet Process(印度自助餐过程)介绍

非参贝叶斯

2017/11/15 08:38:586,854

#非参贝叶斯

Ubuntu 命令行指定GPU 运行 Python 程序

2018/12/19 10:59:446,848

#GPU #linux

如何抽取样本方差的分布

抽取样本方差的分布可以帮助我们生成很多其他分布的样本，例如生成一元高斯分布的样本就是可以通过方差分布来产生。这篇博客将描述如何抽取样本方差的分布。

2017/10/20 15:43:116,838

#抽样 #数学

一文看懂如何初始化神经网络

深度学习的初始化非常重要，这篇博客主要描述两种初始化方法：一个是Kaiming初始化，一个是LSUV方法。文中对比了不同初始化的效果，并将每一种初始化得到的激活函数的输出都展示出来以查看每种初始化对层的输出的影响。当然，作者最后也发现如果使用了BatchNorm的话，不同的初始化方法结果差不多。说明使用BN可以使得初始化不那么敏感了。

2019/06/21 17:20:496,710

#深度学习 #神经网络

数据预处理中的高频词与低频词

在自然语言数据预处理阶段，为了提取更有用的信息，对数据必须进行相应处理。本文重点介绍对于高频词与低频词的处理。

2019/07/16 21:50:546,542

#文本处理

深度学习之Attention机制

Encoder-Decoder的深度学习架构是目前非常流行的神经网络架构，在许多的任务上都取得了很好的成绩。在之前的博客中，我们也详细介绍了该架构（参见深度学习之Encoder-Decoder架构）。本篇博客将详细讲述Attention机制。

2019/03/21 11:32:026,533

#Attention #RNN

Scrapy网络爬虫实战[保存为Json文件及存储到mysql数据库]

2016-09-18 16:09:096,515

#python #网络爬虫框架

中文停用词表和英文停用词表

2019/03/27 21:21:036,470

#中文停用词表和英文停用词表

Android开发中常见错误及其解决方法

在Android开发中，我们经常会遇到很多问题，这里记录了一些常见的问题及其解决方法

2017/11/08 11:15:326,442

#Android #移动编程

Eclipse的Web开发环境搭建——从零开始入门介绍

使用Eclipse进行Web系统开发是一种非常流行的方式。本文将讲述如何从零开始搭建Eclipse的Web开发环境。

2017/08/31 22:03:496,429

#Eclipse #Web开发

7种交叉验证（Cross-validation）技术简介（附代码示例）

交叉验证是一种用于估计机器学习模型性能的统计方法。它是一种评估统计分析结果如何推广到独立数据集的方法。简单来说，就是将数据集分成不同的部分，然后某些部分训练，某些部分测试，某些部分验证，这样可以最大程度避免过拟合以及测试模型在陌生数据集的性能。

2021/11/21 22:24:386,386

#交叉验证 #机器学习

SCI、SCIE、SSCI和EI期刊的含义与区别

SCI期刊可能是国内科研活动中与期刊最相关的话题内容。类似的，包括SCIE、SSCI和EI期刊也是常见的话题。本文将对这几个名词进行解释，并着重说明SCIE是否属于SCI、以及SCI和EI、SSCI的区别。

2021/05/16 00:47:086,329

#SCI #期刊

运行dask程序报错：Task exception was never retrieved

运行本地dask集群的时候出错Task exception was never retrieved的解决方法

2021/06/07 22:42:036,324

#dask #python

用python绘制散点图

如何使用python绘制简单的散点图

2019/03/27 21:13:006,321

#Python #散点图

大模型如何使用长上下文信息？斯坦福大学最新论文证明，你需要将重要的信息放在输入的开始或者结尾处！

大模型的长输入在很多场景下都有非常重要的应用，如代码生成、故事续写、文本摘要等场景，支撑更长的输入通常意味着更好的结果。昨天，斯坦福大学、加州伯克利大学和Samaya AI的研究人员联合发布的一个论文中有一个非常有意思的发现：当相关信息出现在输入上下文的开始或结束时，大模型的性能通常最高，而当大模型必须访问长上下文中间的相关信息时，性能显著下降。本文将简单介绍一下这个现象。

2023/09/17 22:22:406,275

#long-context #大模型