LLaMA大模型在预训练阶段使用的数据集

标签:## 时间:2023/11/04 23:32:58 作者:小木

LLaMA模型预训练阶段不同数据集比例

数据集名称 采样比例 迭代次数(Epochs) 数据集大小
CommonCrawl 67.0% 1.10 3.3 TB
C4 15.0% 1.06 783 GB
Github 4.5% 0.64 328 GB
Wikipedia 4.5% 2.45 83 GB
Books 4.5% 2.23 85 GB
ArXiv 2.5% 1.06 92 GB
StackExchange 2.0% 1.03 78 GB

LLaMA2预训练数据集的语言占比

Language Percent Language Name (中文)
en 89.70% 英语
unknown 8.38% 未知
de 0.17% 德语
fr 0.16% 法语
sv 0.15% 瑞典语
zh 0.13% 中文
es 0.13% 西班牙语
ru 0.13% 俄语
nl 0.12% 荷兰语
it 0.11% 意大利语
ja 0.10% 日语
pl 0.09% 波兰语
pt 0.09% 葡萄牙语
vi 0.08% 越南语
uk 0.07% 乌克兰语
ko 0.06% 韩语
ca 0.04% 加泰罗尼亚语
sr 0.04% 塞尔维亚语
id 0.04% 印尼语
cs 0.03% 捷克语
fi 0.03% 芬兰语
hu 0.03% 匈牙利语
no 0.03% 挪威语
ro 0.03% 罗马尼亚语
bg 0.02% 保加利亚语
da 0.02% 丹麦语
sl 0.01% 斯洛文尼亚语
hr 0.01% 克罗地亚语
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
相关博客
Back to Top