统计、机器学习与编程知识的原创博客

2021年适合初学者的10个最佳机器学习在线课程

机器学习是这几年很热门的学习和工作的方向。但是机器学习相关算法的入门却并不容易。本文参考自MLTUT的博文，列举了2021年适合初学者的十个最佳机器学习网络课程供大家学习参考。

2021/10/27 22:04:29 阅读 4857

机器学习/课程

好消息！3.11和3.12版本的Python将有巨大的性能提升！

去年5月份的时候，Python创始人Guido van Rossum在参加Language Summit时候说他希望Python3.11能在性能上获得巨大的提升，可以实现性能翻倍。目前看，似乎已经有了很大的希望！

2022/03/15 22:10:00 阅读 4885

python

重磅数据集分享：大规模多模态语料库之悟道数据集（WuDaoCorpora 2.0）

前几天，北京智源人工智能研究院引入了一个名为WuDaoMM的大规模多模态语料库，总共包含超过6.5亿对图像-文本。具体来说，约有6亿对数据是从图像和标题呈现弱相关的多个网页中收集的，另外5000万对强相关的图像-文本是从一些高质量的图片网站中收集的。

2022/03/24 09:17:39 阅读 4907

数据集

CNN经典算法之Inception V1（GoogLeNet）

GoogLeNet是谷歌在2014年提出的一种CNN深度学习方法，它赢得了2014年ILSVRC的冠军，其错误率要低于当时的VGGNet。与之前的深度学习网络思路不同，之前的CNN网络的主要目标还是加深网络的深度，而GoogLeNet则提出了一种新的结构，称之为inception。GoogLeNet利用inception结构组成了一个22层的巨大的网络，但是其参数却比之前的如AlexNet网络低很多。是一种非常优秀的CNN结构。

2019/05/31 20:22:25 阅读 4927

GoogLeNet/Inception/卷积神经网络/深度学习

[翻译]应用到文本领域的卷积方法

本文介绍了文本领域的相关任务和技术，探讨了循环神经网络在文本领域的优势，并进一步研究了应用在文本领域的卷积网络方法，原文地址：https://medium.com/@TalPerry/convolutional-methods-for-text-d5260fd5675f

2017/05/27 15:50:25 阅读 4928

RNN/卷积神经网络/文本处理/深度学习

Java爬虫入门简介（三） —— Jsoup解析HTML页面

使用爬虫获取数据对科研来说及其重要，本系列博客将讲述如何使用Java编写爬虫工具获取网页数据。在这篇博客里，我们将简单介绍Jsoup解析HTML页面的操作。

2017/11/08 11:16:51 阅读 4934

HttpClient/Java/Jsoup/爬虫

Dirichlet Multinomial Mixture Model做短文本聚类（包括代码）

2018/03/07 20:22:06 阅读 4946

DPMM

考虑价格和促销影响的销售预测算法实践

这是一篇来自Towards Data Science上面的一篇个人实践分享，主要是针对销量进行预测。一般来说，销量受到价格、季节等因素影响较大。这里就是考虑这些因素进行的一个实践。值得大家一试。这里我们翻译一下，并对其中的某些工作做一些简单的解释。

2020/02/15 18:16:56 阅读 4972

Prophet/python/时间序列分析/流量预测

R语言技巧总结笔记

蛋疼的R语言

2017/08/22 15:49:43 阅读 4973

R语言/编程

深度学习技巧之Batch Normalization

Batch Normalization是深度学习中最重要的技巧之一。是由Sergey Ioffe和Christian Szeged创建的。Batch Normalization使超参数的搜索更加快速便捷，也使得神经网络鲁棒性更好。本篇博客将简要介绍相关概念和原理。

2019/08/18 15:52:57 阅读 4991

coursera/深度学习/调优

Dirichlet Process and Stick-Breaking（DP的Stick-breaking 构造）

2017/03/14 14:11:08 阅读 4999

DP/Stick-Breaking

大模型驱动的自动代理（AI Agent）：将语言模型的能力变成通用能力的一种方式——来自OpenAI安全团队负责人的解释与观点

当前大模型本质是一种大语言模型（Large Language Models, LLM)，其核心能力是对语言的处理。良好的意图识别和文本生成能力让LLM超越了之前的模型，有了巨大的实用价值。但是，现实问题涉及了很多超越语言模型之外的能力，如基于最新数据的文本摘要、向用户提供实时数据分析和可视化结果、为代码提供debugging等。目前，让LLM解决这些问题的一个最有前景的方向就是建立大模型驱动的自动代理。也就是让LLM作为核心控制者来学会使用不同工具，进而完成最终任务。

2023/07/20 16:35:00 阅读 5068

AIAgent/LLM

用python生成随机数的几种方法

本篇博客主要讲解如何从给定参数的的正态分布/均匀分布中生成随机数以及如何以给定概率从数字列表抽取某数字或从区间列表的某一区间内生成随机数，按照内容将博客分为3部分，并附上代码。

2019/03/27 21:13:17 阅读 5132

Python/随机数生成

Android开发入门基础知识——Intent详解

Intent是Android中通信的组件。这篇博客将详细讲述什么是Intent及其用法。

2017/11/08 11:16:25 阅读 5146

Android/移动开发/编程

TFboys：使用Tensorflow搭建深层网络分类器

使用Tensorflow的高级API - tf.contrib.learn 搭建一个DNN分类器

2017/03/08 09:53:51 阅读 5185

DNN/Tensorflow/tf.contrib.learn/神经网络

国产代码补全预训练模型——清华大学CodeGeeX发布！

随着NLP预训练模型的发展，大语言模型在各个领域的作用也越来越大。几个月前，GitHub基于OpenAI的GPT-3训练的Copilot效果十分惊艳，可惜现在已经开始收费。而最近，清华大学也发布了一个代码补全神器——CodeGeeX。

2022/10/02 14:22:35 阅读 5186

代码补全/预训练

ItemCF--Python

基于项目最近邻的协同过滤算法，面向的是隐偏好数据，数据格式为，测试算法的指标为precision和recall

2016-06-06 15:09:01 阅读 5209

个性化推荐

Dask的本地集群配置和编程

Dask提供了多种分布式调度器，当缺少多台服务器时候，也可以通过本地集群来实现单机分布式的计算。这篇博客主要就是介绍如何实现Dask的单机分布式调度器。第一小节是简介，第二节是单机调度器的简写版本，第三节是单机调度器的完整版本，第四节是使用的一些示例。

2020/03/31 14:25:10 阅读 5210

Dask/Python/分布式处理/编程

OpenAI最新的推理大模型o1与GPT-4o有什么区别？o1一定比o1 mini更强吗？一文总结OpenAI对o1模型的官方答疑

OpenAI的o1模型是当前最强大的具有超强推理能力的大语言模型。但是，o1模型本身的能力如何，o1版本和o1-mini版本模型的差异在哪等似乎都很不清晰。为此，OpenAI在Twitter上举办了一次AMA（Ask me anything）活动，解答了很多大家关心的问题。在这篇博客中，我们根据这个讨论结果总结了一下其中比较重要的信息供大家参考。

2024/09/16 19:37:21 阅读 5268

o1/o1-mini/o1-preview/OpenAI/Q*/推理大模型