标签为 #数据处理# 的博客

聚焦人工智能、大模型与深度学习的精选内容，涵盖技术解析、行业洞察和实践经验，帮助你快速掌握值得关注的AI资讯。

大语言模型训练之前，数据集的处理步骤包含哪些？以LLaMA模型的数据处理pipeline（CCNet）为例

大语言模型的训练是一个十分复杂的技术，不仅涉及到模型的开发与部署，还涉及到数据的获取。与常规的算法模型不同的是，大语言模型通常需要大量的数据处理步骤。本文是根据英国一位自动工程师总结的大语言模型训练之前的数据处理步骤和决策过程。

2023/04/24 22:50:02 阅读 4575

大语言模型/数据处理

并行计算中如何提高处理效率——来自Dask的提示

当数据量达到一定程度，单机的处理能力会无法达到性能的要求，采用并行计算，并利用多台服务器进行分布式处理可能会提升数据处理的速度，达到性能要求。然而如果使用不当，并行处理可能并不会提升处理的速度。这篇博客介绍了Dask中关于并行处理的一些效率方面的建议，尽管是针对Dask的说明，但对于所有的并行处理来说都是适用的。

2020/03/31 15:43:31 阅读 4178

Dask/Python/分布式数据处理

如何把一个目录下的所有文件，合并成一个文件

java 读写操作

2016-10-11 09:14:46 阅读 3134

java/数据处理

最新博客

大语言模型训练之前，数据集的处理步骤包含哪些？以LLaMA模型的数据处理pipeline（CCNet）为例

并行计算中如何提高处理效率——来自Dask的提示

如何把一个目录下的所有文件，合并成一个文件