统计、机器学习与编程知识的原创博客

网络爬虫中Json数据的解析

2016-09-09 08:29:17 阅读 3516

java/json/网络爬虫

使用卷积神经网络进行手写识别

本文是发在Medium上的一篇博客：《Handwritten Equation Solver using Convolutional Neural Network》。本文是原文的翻译。这篇文章主要教大家如何使用keras训练手写字符的识别，并保存训练好的模型到本地，以及未来如何调用保存到模型来预测。

2019/06/23 22:35:53 阅读 3509

卷积神经网络/深度学习

通过命令行的方式建立Dask集群

Dask的集群启动创建也很简单，有好几种方式，最简单的是采用官方提供dask-scheduler和dask-worker命令行方式。本文描述如何使用命令行方法建立Dask集群。

2020/05/06 11:41:09 阅读 3504

dask/python/分布式编程

大模型领域的GGML是什么？GGML格式的大模型文件与原有文件有什么不同？它是谁提出的？如何使用？

GGML是在大模型领域常见的一种文件格式。HuggingFace上著名的开发者Tom Jobbins经常发布带有GGML名称字样的大模型。通常是模型名+GGML后缀，那么这个名字的模型是什么？GGML格式的文件名的大模型是什么样的大模型格式？如何使用？本文将简单介绍。

2024/01/20 10:48:01 阅读 3491

GGML/大模型加速/大模型工具/大模型文件格式

《Effective Java 第三版》笔记之六避免创建不必要的对象

2018/09/27 21:21:41 阅读 3480

effectivejava/java/编程

网络爬虫存储数据的三种常见方式及其python实现

网络爬虫

2019/03/27 21:14:29 阅读 3462

excel/Python/TXT/数据库

Eclipse打包Java工程并导出jar包

使用eclipse打包java工程并导出java包

2016-12-12 20:48:12 阅读 3455

程序

Sequence-to-Sequence model

2019/03/27 21:18:52 阅读 3451

Sequence-to-Sequencemodel

抛弃Spark？Flink会是下一代大数据计算引擎吗？

2018/09/21 17:10:37 阅读 3446

flink/spark/大数据

Java多线程网络爬虫(时光网为例)

2016-09-26 08:27:06 阅读 3441

Java/网络爬虫

轮盘赌java算例

2018/03/21 10:42:45 阅读 3439

轮盘赌

神经网络发展简介

看过很多书，都说了神经网络的进展，但总有一些小问题没有明白。这次基本上都明白了，记录一下。

2018/09/20 07:13:16 阅读 3424

深度学习/神经网络

参数估计之极大似然估计、极大后验估计和贝叶斯参数估计

这篇博客主要翻译自Gregor Heinrich的技术博客Parameter estimation for text analysis，介绍极大似然估计、极大后验估计和贝叶斯参数估计的原理和案例

2016-05-17 16:27:13 阅读 3408

参数估计/极大似然估计/极大后验估计/贝叶斯参数估计

122

221

2020/03/23 17:20:35 阅读 3405

122112

MySQL启用中文全文检索功能

MySQL支持对文本进行全文检索，全文检索可以类似搜索引擎的功能，相比较模糊匹配更加灵活高效且更快。MySQL5.7之后也支持对中文的全文检索，这里描述如何启用MySQL的中文全文检索。

2018/05/09 08:53:54 阅读 3391

MySQL/全文检索

忆寺巷

我出生在一个不大不小的南方城市，那里纵横着大大小小的巷子，而通往我记忆深处的是寺巷子。

2017/04/13 21:48:57 阅读 3387

散文/随笔

codeFest2018比赛的冠军解决方案——自然语言处理/计算机视觉/机器学习

2018/09/28 15:44:16 阅读 3371

机器学习/比赛

CentOS搭建SVN服务器及使用Eclipse连接SVN服务器

SVN是Subversion的简称，是一个开放源代码的版本控制系统，相较于RCS、CVS，它采用了分支管理系统，它的设计目标就是取代CVS。互联网上很多版本控制服务已从CVS迁移到Subversion。说得简单一点SVN就是用于多个人共同开发同一个项目，共用资源的目的。

2017/09/01 15:47:58 阅读 3340

开发/版本管理/编程

全球最大（最挣钱）的十大开源企业

自从Hadoop生态发展以来，基于开源软件提供服务的盈利公司也越来越多。大家这才发现，开源不仅不会削弱企业竞争力，还可以带来生态，增强企业的竞争力。本文总结全球最挣钱的十大开源公司供大家参考。

2021/11/02 21:34:15 阅读 3298

开源

机器学习项目流程清单

从问题定义，到数据获取以及模型选择调参，这篇博客指出了每个过程中需要注意的问题

2018/03/16 21:54:33 阅读 3290

数据挖掘/机器学习

2018年7月份以来最好的机器学习的Github库和Reddit帖子

这是来自AnalyticsVidhya的Pranav Dar的帖子

2018/09/18 11:08:07 阅读 3289

机器学习

tokens危机到来该怎么办？新加坡国立大学最新研究：为什么当前的大语言模型的训练都只有1次epoch？多次epochs的大模型训练是否有必要？

epoch是一个重要的深度学习概念，它指的是模型训练过程中完成的一次全体训练样本的全部训练迭代。然而，在LLM时代，很多模型的epoch只有1次或者几次。这似乎与我们之前理解的模型训练充分有不一致。那么，为什么这些大语言模型的epoch次数都很少。如果我们自己训练大语言模型，那么epoch次数设置为1是否足够，我们是否需要更多的训练？

2023/05/31 00:33:36 阅读 3287

tokens/大语言模型/正则化/训练技术

基于Emebdding的检索增强生成效果不同模型对比：重排序十分有利于检索增强生成的效果

基于Embedding模型的大语言模型检索增强生成（Retrieval Augmented Generation，RAG）可以让大语言模型获取最新的或者私有的数据来回答用户的问题，具有很好的前景。但是，检索的覆盖范围、准确性和排序结果对大模型的生成结果有很大的影响。Llamaindex最近对比了主流的`embedding`模型和`reranker`在检索增强生成领域的效果，十分值得关注参考。

2023/11/08 20:10:29 阅读 3278

RAG/reranker/检索增强生成/重排序

端到端（end-to-end）学习

2019/03/27 21:20:37 阅读 3276

端到端（end-to-end）学习

最新博客