HFUTUtils是一个工具程序集合,方便我们平时处理数据。针对文本处理的内容较多。使用起来非常简单。是本人平时使用Java处理数据时候写的工具,方便数据预处理的。
OpenAI开源GPT-2的子词标记化神器——tiktoken,一个超级快的(Byte Pair Encoder,BPE)字节对编码Python库
OpenAI官方教程:如何使用基于embeddings检索来解决GPT无法处理长文本和最新数据的问题
正则化和数据增强对模型的影响并不总是好的:The Effects of Regularization and Data Augmentation are Class Dependent
多元正态(高斯)分布的贝叶斯推导(Bayesian Inference for the Multivariate Normal)
Java爬虫入门简介(二) —— HttpClient详细使用方法
使用SpringMVC创建Web工程并使用SpringSecurity进行权限控制的详细配置方法
Targeted Topic Modeling for Focused Analysis(TTM的理解)