Falcon-40B:截止目前最强大的开源大语言模型,超越MetaAI的LLaMA-65B的开源大语言模型
昨天,HuggingFace的大语言模型排行榜上突然出现了一个评分超过LLaMA-65B的大语言模型:Falcon-40B,引起了广泛的关注。本文将简要的介绍一下这个模型。截止2023年5月27日,Falcon-40B模型(400亿参数)在推理、理解等4项Open LLM Leaderloard任务上评价得分第一,超过了之前最强大的LLaMA-65B模型。

Falcon-40B模型简介
Falcon-40B模型是一个全新的开源大语言模型,由TII(The Technology Innovation Institute:https://datalearner.com/ai-organizations/TII )发布。

Falcon-40B模型参数400亿,根据官方的介绍,该模型相关的主要信息如下:
Falcon-40B模型信息 | Falcon-40B信息结果 |
---|---|
模型架构 | decoder-only的自回归模型 |
模型参数量 | 400亿 |
模型参数量 | 400亿 |
训练的时间 | AWS上2个月训练时间 |
训练使用的GPU | 384个GPUs |
训练计算量 | GPT-3的75% |
训练数据 | RefinedWeb |
训练数据中tokens数量 | 1万亿 |
推理的效率 | GPT-3推理时间的1/5 |
从上面的信息可以看到,这是一个在训练资源上有着很高效率的模型,它的训练计算消耗是GPT-3的75%、Chinchilla的40%,是Google PaLM-62B的80%。
官方还公布了Falcon-40B的训练参数:
Falcon-40B超参数 | Falcon-40B超参数结果 | 说明 |
---|---|---|
Precision(模型精度) | bfloat16 | |
Optimizer | AdamW | |
Learning rate(学习速率) | 1.85e-4 | 4B tokens warm-up, cosine decay to 1.85e-5 |
Weight decay | 1e-1 | |
Z-loss | 1e-4 | |
Batch size | 1152 | 100B tokens ramp-up |
官方建议,大家可以使用Falcon-40B作为基础模型,针对特定任务进行微调。如果你希望使用类似ChatGPT那样的问答能力,则建议使用他们微调后的模型 Falcon-40B-Instruct。
Falcon-40B的训练数据集
Falcon-40B另一个很重要的特点是数据集质量很高。由TII从公开的网络中收集爬取,经过大量的过滤(包括删除成人内容、删除机器生成的文本等)以及重复数据删除后得到了一个仅50万亿tokens的预训练数据集。此外,他们还扩展了精心挑选的研究论文和社交媒体的对话内容以提高训练效果。
Falcon-40B模型训练的数据集是TII自己收集的,主要包括:
数据源名称 | 占比 | Tokens数量 | 来源 |
---|---|---|---|
RefinedWeb-English | 75% | 7500亿 | 网络爬虫 |
RefinedWeb-Europe | 7% | 700亿 | European massive zeb crawl |
Books | 6% | 600亿 | |
Conversations | 5% | 500亿 | Reddit, StackOverflow, HackerNews |
Code | 5% | 500亿 | |
Technical | 2% | 200亿 | arXiv, PubMed, UPSTO, etc. |
可以看到,其中最主要的数据集就是英文的RefinedWeb数据集。该数据集也是由TII收集,并以Apache2.0协议开源。该数据集大小是约500-650GB的压缩文件,解压之后大约几个T,获取方法如下:
from datasets import load_dataset
rw = load_dataset("tiiuae/falcon-refinedweb")
上述方法使用的是HuggingFace的datasets库,可以直接下载,这个下载结果由500GB,解压后由2.8TB。
除了数据集外,他们还公布了Falcon-40B模型的数据集语言组成情况,Falcon-40B模型支持的语言主要是英语、德语、西班牙语和法语(此外,在意大利语、葡萄牙语、波兰语、荷兰语、罗马尼亚语、捷克语和瑞典语上也可以,只是能力稍微欠缺):
语言 | 占比 | Tokens数量 |
---|---|---|
German | 26% | 18B |
Spanish | 24% | 17B |
French | 23% | 16B |
Italian | 7% | 5B |
Portuguese | 4% | 3B |
Polish | 4% | 3B |
Dutch | 4% | 3B |
Romanian | 3% | 2B |
Czech | 3% | 2B |
Swedish | 2% | 1B |
可以看到,没有中文,因此Falcon-40B不支持中文!
Falcon-40B的开源协议和商用授权
Falcon-40B模型的开源协议很有意思,是TII自己创造的一个开源协议。主要内容是它免费授权你做个人或者非商用的研究。但是,如果你想取得商用授权是要付费的。向TII申请之后商用的费用为每年收入的10%(单看协议中8.2节的c条款的话似乎是超过100万美元收入部分的10%!年收入不超过100万美元不收费!):
8.2 Where TII grants permission for You to make Commercial Use of the relevant Work, then for that purpose You shall be considered a Commercial User, and:
(a) In its written grant of permission, TII shall set the royalty rate that will apply to you as a Commercial User as a percentage of revenue ( “Relevant Percentage”), where, unless otherwise specified in the grant of permission, the Relevant Percentage shall be 10%; and
(b) Each year on the anniversary of the date upon which you were granted permission by TII to make Commercial Use of the relevant Work (the “Anniversary Date”) You shall account to TII in writing in full for all revenue you have received in the previous 12 months which is attributable (whether directly or indirectly) to Your use of the relevant Work (“Attributable Revenue”); and
这是不是意味着你得向TII透露你的财务信息呢!
Falcon模型系列版本
Falcon模型目前有3个版本:
Falcon模型名称 | 简介 | 模型信息卡地址 |
---|---|---|
Falcon-40B | 基础的大语言模型,适合对特定领域任务做微调,各项任务得分都很高。 | https://www.datalearner.com/ai-models/pretrained-models/Falcon-40B |
Falcon-40B-Instruct | 针对指令微调的版本,适合聊天,不过不合适继续做微调 | https://www.datalearner.com/ai/pretrained-models/Falcon-40B-Instruct |
Falcon-7B | 70亿参数版本,规模更小,预训练结果文件仅14.33GB | https://www.datalearner.com/ai/pretrained-models/Falcon-7B |
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
