统计、机器学习与编程知识的原创博客

Java读取和操作上G文本数据

在处理文本时，经常遇到超过1g存储的数据，直接简单的读取，可能遇到java空间不足的问题，为解决此问题，可将大文本数据按照行进行切分为很多块，并将每一块存储为一个文本

2016-04-06 21:30:43 阅读 3220

java/文本挖掘/文本预处理

财大气粗！英伟达官方AI Playground提供可以免费使用的Stable Diffusion XL、LLaMA2、CLIP等模型

AI Playground最近的LLaMA2、Stable Diffusion XL等模型的进展也让大家看到了最新最强大的模型的能力。但是，对于大多数人来说，这些模型的使用依然具有较高的门槛，除了硬件资源消耗大，本身的部署也不容易。而支撑这些模型的一个重要的硬件因素就是英伟达的显卡。显卡已经超越一般理财，变得越来越贵。因此，基于大模型的免费服务成本也很高，而今天，英伟达官方的NGC网站推出了新的几款可以免费使用的大模型，包括聊天大模型LLaMA2、文本生成图片大模型Stable Diffusion等，基于

2023/08/10 13:43:21 阅读 3225

StableDiffusionXL/免费资源

DataLearnerAI发布中国国产开源大模型生态概览统计：国产开源大模型都有哪些？现状如何？

随着GPT的一路爆火，国内大模型的开源生态也开始火热。各大商业机构和科研组织都在不断发布自己的大模型产品和成果。但是，众多的大模型产品眼花缭乱。为了方便大家追踪国产开源大模型的发展情况，DataLearnerAI发布了中国国产大模型生态系统全景统计（地址：https://www.datalearner.com/china-opensource-llm ），本文也将根据这个统计结果简单分析当前国产开源大模型的生态发展情况。

2023/11/10 17:26:56 阅读 3233

中文大模型/国产大模型/国产开源大模型/大模型

Baichuan系列大语言模型升级到第二代，百川开源的Baichuan2系列大模型详解，能力提升明显，依然免费商用授权

百川智能是前搜狗创始人王小川创立的一个大模型创业公司，主要的目标是提供大模型底座来提供各种服务。虽然成立很晚（在2023年4月份成立），但是三个月后便发布开源了Baichuan系列开源模型，并上架了Baichun-53B的大模型聊天服务。这些模型受到了广泛的关注和很高的平均。而2个月后，百川智能再次开源第二代baichuan系列大模型，其能力提升明显。

2023/09/09 10:28:29 阅读 3255

Baichuan2/baichuan2大模型/百川

AI系统中（机器学习算法）导致偏差的原因总结

基于算法的业务或者说AI的应用在这几年发展的很快。但是，在实际应用的场景中，我们经常会遇到一些非常奇怪的偏差现象。例如，Facebook将黑人标记为灵长类动物、城市图像识别系统将公交车上的董明珠形象广告识别为闯红灯的人等。算法系统出现偏差的原因有很多。本篇博客将总结在数据获取相关方面可能导致模型出现偏差的原因。

2021/11/07 22:31:25 阅读 3266

AI系统/算法偏差

Linux权限管理之基本权限

2016-03-24 21:38:32 阅读 3267

Linux

梯度下降、牛顿法、拟牛顿法详细介绍

2018/03/31 17:53:57 阅读 3273

拟牛顿法详细介绍/梯度下降/牛顿法

什么是推理大模型？DeepSeek R1推理大模型与DeepSeek V3模型的区别是什么？什么时候该使用推理大模型？

最近，随着DeepSeek R1的火爆，推理大模型也进入大众的视野。但是，相比较此前的GPT-4o，推理大模型的区别是什么？它适合什么样的任务？推理大模型是如何训练出来的？很多人并不了解。本文将详细解释推理大模型的核心内容。

2025/02/08 18:05:03 阅读 3274

DeepSeekR1/OpenAIo1/推理大模型/纯强化学习大模型

端到端（end-to-end）学习

2019/03/27 21:20:37 阅读 3276

端到端（end-to-end）学习

基于Emebdding的检索增强生成效果不同模型对比：重排序十分有利于检索增强生成的效果

基于Embedding模型的大语言模型检索增强生成（Retrieval Augmented Generation，RAG）可以让大语言模型获取最新的或者私有的数据来回答用户的问题，具有很好的前景。但是，检索的覆盖范围、准确性和排序结果对大模型的生成结果有很大的影响。Llamaindex最近对比了主流的`embedding`模型和`reranker`在检索增强生成领域的效果，十分值得关注参考。

2023/11/08 20:10:29 阅读 3279

RAG/reranker/检索增强生成/重排序

tokens危机到来该怎么办？新加坡国立大学最新研究：为什么当前的大语言模型的训练都只有1次epoch？多次epochs的大模型训练是否有必要？

epoch是一个重要的深度学习概念，它指的是模型训练过程中完成的一次全体训练样本的全部训练迭代。然而，在LLM时代，很多模型的epoch只有1次或者几次。这似乎与我们之前理解的模型训练充分有不一致。那么，为什么这些大语言模型的epoch次数都很少。如果我们自己训练大语言模型，那么epoch次数设置为1是否足够，我们是否需要更多的训练？

2023/05/31 00:33:36 阅读 3288

tokens/大语言模型/正则化/训练技术