LLaMA大模型在预训练阶段使用的数据集 | 数据学习者官方网站(Datalearner)

LLaMA大模型在预训练阶段使用的数据集

标签：## 时间：2023/11/04 23:32:58 作者：小木

LLaMA模型预训练阶段不同数据集比例

数据集名称	采样比例	迭代次数（Epochs)	数据集大小
CommonCrawl	67.0%	1.10	3.3 TB
C4	15.0%	1.06	783 GB
Github	4.5%	0.64	328 GB
Wikipedia	4.5%	2.45	83 GB
Books	4.5%	2.23	85 GB
ArXiv	2.5%	1.06	92 GB
StackExchange	2.0%	1.03	78 GB

LLaMA2预训练数据集的语言占比

Language	Percent	Language Name (中文)
en	89.70%	英语
unknown	8.38%	未知
de	0.17%	德语
fr	0.16%	法语
sv	0.15%	瑞典语
zh	0.13%	中文
es	0.13%	西班牙语
ru	0.13%	俄语
nl	0.12%	荷兰语
it	0.11%	意大利语
ja	0.10%	日语
pl	0.09%	波兰语
pt	0.09%	葡萄牙语
vi	0.08%	越南语
uk	0.07%	乌克兰语
ko	0.06%	韩语
ca	0.04%	加泰罗尼亚语
sr	0.04%	塞尔维亚语
id	0.04%	印尼语
cs	0.03%	捷克语
fi	0.03%	芬兰语
hu	0.03%	匈牙利语
no	0.03%	挪威语
ro	0.03%	罗马尼亚语
bg	0.02%	保加利亚语
da	0.02%	丹麦语
sl	0.01%	斯洛文尼亚语
hr	0.01%	克罗地亚语

欢迎大家关注DataLearner官方微信，接受最新的AI技术推送

相关博客

最热博客

Back to Top