LLaMA大模型在预训练阶段使用的数据集
标签:##
时间:2023/11/04 23:32:58
作者:小木
LLaMA模型预训练阶段不同数据集比例
数据集名称 |
采样比例 |
迭代次数(Epochs) |
数据集大小 |
CommonCrawl |
67.0% |
1.10 |
3.3 TB |
C4 |
15.0% |
1.06 |
783 GB |
Github |
4.5% |
0.64 |
328 GB |
Wikipedia |
4.5% |
2.45 |
83 GB |
Books |
4.5% |
2.23 |
85 GB |
ArXiv |
2.5% |
1.06 |
92 GB |
StackExchange |
2.0% |
1.03 |
78 GB |
LLaMA2预训练数据集的语言占比
Language |
Percent |
Language Name (中文) |
en |
89.70% |
英语 |
unknown |
8.38% |
未知 |
de |
0.17% |
德语 |
fr |
0.16% |
法语 |
sv |
0.15% |
瑞典语 |
zh |
0.13% |
中文 |
es |
0.13% |
西班牙语 |
ru |
0.13% |
俄语 |
nl |
0.12% |
荷兰语 |
it |
0.11% |
意大利语 |
ja |
0.10% |
日语 |
pl |
0.09% |
波兰语 |
pt |
0.09% |
葡萄牙语 |
vi |
0.08% |
越南语 |
uk |
0.07% |
乌克兰语 |
ko |
0.06% |
韩语 |
ca |
0.04% |
加泰罗尼亚语 |
sr |
0.04% |
塞尔维亚语 |
id |
0.04% |
印尼语 |
cs |
0.03% |
捷克语 |
fi |
0.03% |
芬兰语 |
hu |
0.03% |
匈牙利语 |
no |
0.03% |
挪威语 |
ro |
0.03% |
罗马尼亚语 |
bg |
0.02% |
保加利亚语 |
da |
0.02% |
丹麦语 |
sl |
0.01% |
斯洛文尼亚语 |
hr |
0.01% |
克罗地亚语 |