标签

「模型训练」相关文章

汇总「模型训练」相关的原创 AI 技术文章与大模型实践笔记，持续更新。

标签:#模型训练

GPT-5.5为什么喜欢用哥布林做比喻回答你？哥布林从何而来——OpenAI 亲自揭秘一次训练跑偏的全过程

为什么 ChatGPT 会突然爱上“哥布林”？OpenAI 最新披露的“Goblin 事件”揭示了一个关键问题：在 RLHF 训练中，一个微小的奖励偏差，如何从 2.5% 的场景扩散到整个模型。本文带你看清大模型如何“学歪”、为什么测试发现不了，以及这对 AI Agent 时代意味着什么。

2026/04/30 14:21:21377

#GPT #大模型训练

基于可验证奖励的强化学习（Reinforcement Learning with Verifiable Rewards, RLVR）的介绍：为什么 2025 年，大模型训练的重心开始发生迁移？

过去几年，大语言模型的训练路线相对稳定：更大的模型、更长的预训练、更精细的指令微调与人类反馈对齐。这套方法在很长一段时间内持续奏效，也塑造了人们对“模型能力如何提升”的基本认知。但在 2025 年前后，一种并不算新的训练思路突然被推到台前，并开始占据越来越多的计算资源与工程关注度，这就是**基于可验证奖励的强化学习（Reinforcement Learning from Verifiable Rewards，RLVR）**。

2025/12/21 15:14:291,432

#RLHF #RLVR

为什么大语言模型的训练和推理要求比较高的精度，如FP32、FP16？浮点运算的精度概念详解

在大语言模型的训练和应用中，计算精度是一个非常重要的概念，本文将详细解释关于大语言模型中FP32、FP16等精度概念，并说明为什么大语言模型的训练通常使用FP32精度。

2023/10/30 20:48:014,639

#FP16 #FP32

如何训练一个大语言模型？当前基于transformer架构的大语言模型的通用训练流程介绍

在当今的人工智能领域，大型语言模型（LLM）已成为备受瞩目的研究方向之一。它们能够理解和生成人类语言，为各种自然语言处理任务提供强大的能力。然而，这些模型的训练不仅仅是将数据输入神经网络，还包括一个复杂的管线，其中包括预训练、监督微调和对齐三个关键步骤。本文将详细介绍这三个步骤，特别关注强化学习与人类反馈（RLHF）的作用和重要性。

2023/09/14 23:32:181,379

#大模型训练过程 #大模型预训练

突破英特尔CPU+英伟达GPU的大模型训练硬件组合：苹果与AMD都有新进展！

大语言模型的训练和微调的硬件资源要求很高。现行主流的大模型训练硬件一般采用英特尔的CPU+英伟达的GPU进行。主要原因在于二者提供了符合大模型训练所需的计算架构和底层的加速库。但是，最近苹果M2 Ultra和AMD的显卡进展让我们看到了一些新的希望。

2023/07/02 23:08:462,693

#大模型训练 #生态

SlimPajama：CerebrasAI开源最新可商用的高质量大语言模型训练数据集，含6270亿个tokens！

大语言模型训练的一个重要前提就是高质量超大规模的数据集。为了促进开源大模型生态的发展，Cerebras新发布了一个超大规模的文本数据集SlimPajama，SlimPajama可以作为大语言模型的训练数据集，具有很高的质量。除了SlimPajama数据集外，Cerebras此次还开源了处理原始数据的脚本，包括去重和预处理部分。官方认为，这是目前第一个开源处理万亿规模数据集的清理和MinHashLSH去重工具。

2023/06/11 23:16:023,609

#大模型训练 #大规模数据集

如何训练你自己的大语言模型？——来自Replit一线工程师的亲身经验

本文是Replit工程师发表的训练自己的大语言模型的过程的经验和步骤总结。Replit是一家IDE提供商，它们训练LLM的主要目的是解决编程过程的问题。Replit在训练自己的大语言模型时候使用了Databricks、Hugging Face和MosaicML等提供的技术栈。这篇文章提供的都是一线的实际经验，适合ML/AI架构师以及算法工程师学习。

2023/04/24 22:35:152,664

#LLM #模型训练

实际案例说明AI时代大语言模型三种微调技术的区别——Prompt-Tuning、Instruction-Tuning和Chain-of-Thought

Prompt-Tuning、Instruction-Tuning和Chain-of-Thought是近几年十分流行的大模型训练技术，本文主要介绍这三种技术及其差别。

2023/04/24 22:34:1117,098

#大模型训练