标签为 #训练技术# 的博客

聚焦人工智能、大模型与深度学习的精选内容，涵盖技术解析、行业洞察和实践经验，帮助你快速掌握值得关注的AI资讯。

tokens危机到来该怎么办？新加坡国立大学最新研究：为什么当前的大语言模型的训练都只有1次epoch？多次epochs的大模型训练是否有必要？

epoch是一个重要的深度学习概念，它指的是模型训练过程中完成的一次全体训练样本的全部训练迭代。然而，在LLM时代，很多模型的epoch只有1次或者几次。这似乎与我们之前理解的模型训练充分有不一致。那么，为什么这些大语言模型的epoch次数都很少。如果我们自己训练大语言模型，那么epoch次数设置为1是否足够，我们是否需要更多的训练？

2023/05/31 00:33:36 阅读 3280

tokens/大语言模型/正则化/训练技术

深度学习模型训练将训练批次（batch）设置为2的指数是否有实际价值？

在深度学习训练中，由于数据太大，现在的训练一般是按照一个批次的数据进行训练。批次大小（batch size）的设置在很多论文或者教程中都提示要设置为$2^n$，例如16、32等，这样可能会在现有的硬件中获得更好的性能。但是，目前似乎没有人进行过实际的测试，例如32的batch size与33的batch size性能到底有多大差别？德国的Thomas Bierhance做了一系列实验，以验证批次大小设置为2的幂次方是不是真的可以加速。

2022/07/05 22:28:32 阅读 2725

深度学习/训练技术

最新博客

tokens危机到来该怎么办？新加坡国立大学最新研究：为什么当前的大语言模型的训练都只有1次epoch？多次epochs的大模型训练是否有必要？

深度学习模型训练将训练批次（batch）设置为2的指数是否有实际价值？