统计、机器学习与编程知识的原创博客

考虑价格和促销影响的销售预测算法实践

这是一篇来自Towards Data Science上面的一篇个人实践分享，主要是针对销量进行预测。一般来说，销量受到价格、季节等因素影响较大。这里就是考虑这些因素进行的一个实践。值得大家一试。这里我们翻译一下，并对其中的某些工作做一些简单的解释。

2020/02/15 18:16:56 阅读 4972

Prophet/python/时间序列分析/流量预测

Dirichlet Multinomial Mixture Model做短文本聚类（包括代码）

2018/03/07 20:22:06 阅读 4946

DPMM

Java爬虫入门简介（三） —— Jsoup解析HTML页面

使用爬虫获取数据对科研来说及其重要，本系列博客将讲述如何使用Java编写爬虫工具获取网页数据。在这篇博客里，我们将简单介绍Jsoup解析HTML页面的操作。

2017/11/08 11:16:51 阅读 4934

HttpClient/Java/Jsoup/爬虫

[翻译]应用到文本领域的卷积方法

本文介绍了文本领域的相关任务和技术，探讨了循环神经网络在文本领域的优势，并进一步研究了应用在文本领域的卷积网络方法，原文地址：https://medium.com/@TalPerry/convolutional-methods-for-text-d5260fd5675f

2017/05/27 15:50:25 阅读 4928

RNN/卷积神经网络/文本处理/深度学习

CNN经典算法之Inception V1（GoogLeNet）

GoogLeNet是谷歌在2014年提出的一种CNN深度学习方法，它赢得了2014年ILSVRC的冠军，其错误率要低于当时的VGGNet。与之前的深度学习网络思路不同，之前的CNN网络的主要目标还是加深网络的深度，而GoogLeNet则提出了一种新的结构，称之为inception。GoogLeNet利用inception结构组成了一个22层的巨大的网络，但是其参数却比之前的如AlexNet网络低很多。是一种非常优秀的CNN结构。

2019/05/31 20:22:25 阅读 4927

GoogLeNet/Inception/卷积神经网络/深度学习

重磅数据集分享：大规模多模态语料库之悟道数据集（WuDaoCorpora 2.0）

前几天，北京智源人工智能研究院引入了一个名为WuDaoMM的大规模多模态语料库，总共包含超过6.5亿对图像-文本。具体来说，约有6亿对数据是从图像和标题呈现弱相关的多个网页中收集的，另外5000万对强相关的图像-文本是从一些高质量的图片网站中收集的。

2022/03/24 09:17:39 阅读 4907

数据集

好消息！3.11和3.12版本的Python将有巨大的性能提升！

去年5月份的时候，Python创始人Guido van Rossum在参加Language Summit时候说他希望Python3.11能在性能上获得巨大的提升，可以实现性能翻倍。目前看，似乎已经有了很大的希望！

2022/03/15 22:10:00 阅读 4885

python

2021年适合初学者的10个最佳机器学习在线课程

机器学习是这几年很热门的学习和工作的方向。但是机器学习相关算法的入门却并不容易。本文参考自MLTUT的博文，列举了2021年适合初学者的十个最佳机器学习网络课程供大家学习参考。

2021/10/27 22:04:29 阅读 4857

机器学习/课程

深度学习技术之池化（Pooling）

2019/02/21 10:43:18 阅读 4840

coursera/深度学习/调优

论文中常见的英语表达

英语论文常见表达笔记

2017/12/04 16:28:46 阅读 4822

英语/论文

二叉查找树（Binary Search Trees，BST）数据结构详解

二叉查找树是一种特殊的二叉树结构，它改善了二叉树的查找效率，二叉查找树相比于其他数据结构的优势在于查找、插入的时间复杂度较低。与一般的二叉树的主要区别就是它对子节点的键值排序有一定要求。

2018/10/25 17:12:34 阅读 4816

二叉树/数据结构/索引

ChatGLM-6B升级！清华大学开源VisualGLM-6B：一个可以在本地运行的读懂图片的语言模型！

今天，THUDM开源了ChatGLM-6B的多模态升级版模型VisualGLM-6B。这是一个多模态对话语言模型，支持图像、中文和英文。VisualGLM-6B的特别之处在于它能够整合视觉和语言信息。可以用来理解图片，解析图片内容。

2023/05/19 00:27:34 阅读 4788

ChatGLM-6B/VisualGLM-6B/图片理解/多模态模型

特征工程相关技术简介

机器学习的特征工程是将原始的输入数据转换成特征，以便于更好的表示潜在的问题，并有助于提高预测模型准确性的过程。找出合适的特征是很困难且耗时的工作，它需要专家知识，而应用机器学习基本也可以理解成特征工程。

2018/10/08 19:41:40 阅读 4771

机器学习/特征工程

大规模中文开源数据集发布！2TB、几十亿条可商用的中文数据集书生·万卷 1.0开源~中文大模型能力可能要更上一层楼了！

随着近年来GPT-3、ChatGPT等大模型的兴起，高质量的数据集在模型训练中扮演着越来越重要的角色。但是当前领先的预训练模型使用的数据集细节往往不公开，开源数据的匮乏制约着研究社区的进一步发展。特别是大规模中文数据集十分缺乏，对中文大模型以及业界模型的中文支持都有很大的影响。此次，上海人工智能实验室发布的这个数据集包含了丰富的中文，对于大模型的中文能力提升十分有价值。

2023/08/24 16:39:22 阅读 4766

中文预训练数据集/大模型数据集/开源数据集

编程项目构建工具简介

在进行编程操作的时候，我们常常会遇到很多与编程无关的项目管理工作，如下载依赖、编译源码、单元测试、项目部署等操作。一般的，小型项目我们可以手动实现这些操作，然而大型项目这些工作则相对复杂。构建工具是帮助我们实现一系列项目管理、测试和部署操作的工具。本文将对Java构建工具做简单介绍。

2017/09/05 16:09:10 阅读 4697

Ant/Gradle/Maven/构建工具/编程

BPR：面向隐式反馈数据的贝叶斯个性化排序

本文是Steffen Rendle的文章BPR: Bayesian Personalized Ranking from Implicit Feedback的译文

2016-05-08 10:05:48 阅读 4691

BPR/排序模型/译文/隐式反馈

Java类型转换中valueOf方法和parseInt方法的区别

在Java的类型转换中，我们经常会使用valueOf或者parseInt（parseFloat/parseDouble等）来转换。这二者有什么区别呢？这里简要介绍一下。

2019/08/17 17:13:26 阅读 4668

Java/编程

Spark源码分析之RDD下的KMeans

这篇博客主要介绍Spark源码中的KMeans部分，说的是RDD下的KMeans源码

2018/09/26 15:22:24 阅读 4636

scala/spark/大数据

各大企业和机构拥有的NVIDIA A100的GPU显卡数量

Stateof.AI上周发布了最新的AI的报告中报告了当前各大企业和机构拥有的NVIDIA A100的GPU数量。A100是目前商用的最强大的GPU，对于超级计算机、大规模AI模型的训练和推理来说都十分重要。这里透露的各大企业的GPU数量也让我们可以看到各家的竞争情况。

2023/09/08 20:19:06 阅读 4629

A100/GPU/洞察报告

自然语言处理中常见的字节编码对（Byte-Pair Encoding，BPE）简介

字节对编码（Byte Pair Encoder，BPE），又叫digram coding，是一种在自然语言处理领域经常使用的数据压缩算法。在GPT系列模型中都有用到。主要是将数据中最常连续出现的字节（bytes）替换成数据中没有出现的字节的方法。该算法首先由Philip Gage在1994年提出。在这篇博客中我们将简单介绍一下这个方法。

2022/12/16 20:52:27 阅读 4626

NLP/自然语言处理