DataLearner logoDataLearnerAI
Latest AI Insights
Model Evaluations
Model Directory
Model Comparison
Resource Center
Tools

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
  1. Home/
  2. Blog/
  3. Tag: 大模型预训练
Tag

Articles tagged "大模型预训练"

A curated list of original AI and LLM articles related to "大模型预训练", updated regularly.

Tags:#大模型预训练
6种大模型的使用方式总结,使用领域数据集持续做无监督预训练可能是一个好选择

6种大模型的使用方式总结,使用领域数据集持续做无监督预训练可能是一个好选择

Sebastian Raschka是LightningAI的首席科学家,也是前威斯康星大学麦迪逊分校的统计学助理教授。他在大模型领域有非常深的简介,也贡献了许多有价值的内容。在最新的一期统计中,他总结了6种大模型的使用方法,引起了广泛的讨论。其中,关于使用领域数据集做无监督预训练是目前讨论较少,但十分重要的一个方向。

2023/12/24 22:13:331,481
#大模型预训练#无监督预训练
如何训练一个大语言模型?当前基于transformer架构的大语言模型的通用训练流程介绍

如何训练一个大语言模型?当前基于transformer架构的大语言模型的通用训练流程介绍

在当今的人工智能领域,大型语言模型(LLM)已成为备受瞩目的研究方向之一。它们能够理解和生成人类语言,为各种自然语言处理任务提供强大的能力。然而,这些模型的训练不仅仅是将数据输入神经网络,还包括一个复杂的管线,其中包括预训练、监督微调和对齐三个关键步骤。本文将详细介绍这三个步骤,特别关注强化学习与人类反馈(RLHF)的作用和重要性。

2023/09/14 23:32:181,202
#大模型训练过程#大模型预训练

Topic Collections

RAG (Retrieval-Augmented Generation)
Long Context (Large Language Models)
AI Agent Practices

Hot Blogs

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署

Today's Picks

  • 大模型工具使用的三次进化:从 Function Calling 到程序化编排
  • 为什么GitHub要求文件的末尾必须有换行符?
  • Vibe Coding再迎重磅玩家,AWS发布AI IDE:Kiro,你可以直接通过自然语言来生成代码,创建网站、游戏或者程序了。
  • Java入门基础笔记-9
  • KerasCV——一个新的简单易用的计算机视觉(CV)算法库
  • 除了Mistral-7B-MoE外,MistralAI还有更强大的模型,未宣布的Mistral-medium比混合专家模型更强!
  • JetBrains的IDEA打包可执行Jar文件以及maven的依赖的方法
  • Zhipu AI重磅发布GLM-4.5系列:技术深度解析与多维度性能评测