标签

「模型训练」相关文章

汇总「模型训练」相关的原创 AI 技术文章与大模型实践笔记，持续更新。

标签:#模型训练

基于可验证奖励的强化学习（Reinforcement Learning with Verifiable Rewards, RLVR）的介绍：为什么 2025 年，大模型训练的重心开始发生迁移？

过去几年，大语言模型的训练路线相对稳定：更大的模型、更长的预训练、更精细的指令微调与人类反馈对齐。这套方法在很长一段时间内持续奏效，也塑造了人们对“模型能力如何提升”的基本认知。但在 2025 年前后，一种并不算新的训练思路突然被推到台前，并开始占据越来越多的计算资源与工程关注度，这就是**基于可验证奖励的强化学习（Reinforcement Learning from Verifiable Rewards，RLVR）**。

2025/12/21 15:14:291,196

#RLHF #RLVR

为什么大语言模型的训练和推理要求比较高的精度，如FP32、FP16？浮点运算的精度概念详解

在大语言模型的训练和应用中，计算精度是一个非常重要的概念，本文将详细解释关于大语言模型中FP32、FP16等精度概念，并说明为什么大语言模型的训练通常使用FP32精度。

2023/10/30 20:48:014,520

#FP16 #FP32

如何训练一个大语言模型？当前基于transformer架构的大语言模型的通用训练流程介绍

在当今的人工智能领域，大型语言模型（LLM）已成为备受瞩目的研究方向之一。它们能够理解和生成人类语言，为各种自然语言处理任务提供强大的能力。然而，这些模型的训练不仅仅是将数据输入神经网络，还包括一个复杂的管线，其中包括预训练、监督微调和对齐三个关键步骤。本文将详细介绍这三个步骤，特别关注强化学习与人类反馈（RLHF）的作用和重要性。

2023/09/14 23:32:181,293

#大模型训练过程 #大模型预训练