DataLearner logoDataLearnerAI
Latest AI Insights
Model Leaderboards
Benchmarks
Model Directory
Model Comparison
Resource Center
Tools
LanguageEnglish
DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

Products

  • Leaderboards
  • Model comparison
  • Datasets

Resources

  • Tutorials
  • Editorial
  • Tool directory

Company

  • About
  • Privacy policy
  • Data methodology
  • Contact

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

Privacy policyTerms of service
  1. Home/
  2. Blog List/
  3. Blog Detail

Falcon-40B:截止目前最强大的开源大语言模型,超越MetaAI的LLaMA-65B的开源大语言模型

2023/05/27 22:11:32
3,131 views
Falcon-40BLLM大语言模型

昨天,HuggingFace的大语言模型排行榜上突然出现了一个评分超过LLaMA-65B的大语言模型:Falcon-40B,引起了广泛的关注。本文将简要的介绍一下这个模型。截止2023年5月27日,Falcon-40B模型(400亿参数)在推理、理解等4项Open LLM Leaderloard任务上评价得分第一,超过了之前最强大的LLaMA-65B模型。

  • Falcon-40B模型简介
  • Falcon-40B的训练数据集
  • Falcon-40B的开源协议和商用授权
  • Falcon模型系列版本

Falcon-40B模型简介

Falcon-40B模型是一个全新的开源大语言模型,由TII(The Technology Innovation Institute:https://datalearner.com/ai-organizations/TII )发布。

Falcon-40B模型信息卡:https://datalearner.com/ai-models/pretrained-models/Falcon-40B

Falcon-40B模型参数400亿,根据官方的介绍,该模型相关的主要信息如下:

Falcon-40B模型信息Falcon-40B信息结果
模型架构decoder-only的自回归模型
模型参数量400亿
模型参数量400亿
训练的时间AWS上2个月训练时间
训练使用的GPU384个GPUs
训练计算量GPT-3的75%
训练数据RefinedWeb
训练数据中tokens数量1万亿
推理的效率GPT-3推理时间的1/5

从上面的信息可以看到,这是一个在训练资源上有着很高效率的模型,它的训练计算消耗是GPT-3的75%、Chinchilla的40%,是Google PaLM-62B的80%。

官方还公布了Falcon-40B的训练参数:

Falcon-40B超参数Falcon-40B超参数结果说明
Precision(模型精度)bfloat16
OptimizerAdamW
Learning rate(学习速率)1.85e-44B tokens warm-up, cosine decay to 1.85e-5
Weight decay1e-1
Z-loss1e-4
Batch size1152100B tokens ramp-up

官方建议,大家可以使用Falcon-40B作为基础模型,针对特定任务进行微调。如果你希望使用类似ChatGPT那样的问答能力,则建议使用他们微调后的模型 Falcon-40B-Instruct。

Falcon-40B的训练数据集

Falcon-40B另一个很重要的特点是数据集质量很高。由TII从公开的网络中收集爬取,经过大量的过滤(包括删除成人内容、删除机器生成的文本等)以及重复数据删除后得到了一个仅50万亿tokens的预训练数据集。此外,他们还扩展了精心挑选的研究论文和社交媒体的对话内容以提高训练效果。

Falcon-40B模型训练的数据集是TII自己收集的,主要包括:

数据源名称占比Tokens数量来源
RefinedWeb-English75%7500亿网络爬虫
RefinedWeb-Europe7%700亿European massive zeb crawl
Books6%600亿
Conversations5%500亿Reddit, StackOverflow, HackerNews
Code5%500亿
Technical2%200亿arXiv, PubMed, UPSTO, etc.

可以看到,其中最主要的数据集就是英文的RefinedWeb数据集。该数据集也是由TII收集,并以Apache2.0协议开源。该数据集大小是约500-650GB的压缩文件,解压之后大约几个T,获取方法如下:

from datasets import load_dataset
rw = load_dataset("tiiuae/falcon-refinedweb")

上述方法使用的是HuggingFace的datasets库,可以直接下载,这个下载结果由500GB,解压后由2.8TB。

除了数据集外,他们还公布了Falcon-40B模型的数据集语言组成情况,Falcon-40B模型支持的语言主要是英语、德语、西班牙语和法语(此外,在意大利语、葡萄牙语、波兰语、荷兰语、罗马尼亚语、捷克语和瑞典语上也可以,只是能力稍微欠缺):

语言占比Tokens数量
German26%18B
Spanish24%17B
French23%16B
Italian7%5B
Portuguese4%3B
Polish4%3B
Dutch4%3B
Romanian3%2B
Czech3%2B
Swedish2%1B

可以看到,没有中文,因此Falcon-40B不支持中文!

Falcon-40B的开源协议和商用授权

Falcon-40B模型的开源协议很有意思,是TII自己创造的一个开源协议。主要内容是它免费授权你做个人或者非商用的研究。但是,如果你想取得商用授权是要付费的。向TII申请之后商用的费用为每年收入的10%(单看协议中8.2节的c条款的话似乎是超过100万美元收入部分的10%!年收入不超过100万美元不收费!):

8.2 Where TII grants permission for You to make Commercial Use of the relevant Work, then for that purpose You shall be considered a Commercial User, and: (a) In its written grant of permission, TII shall set the royalty rate that will apply to you as a Commercial User as a percentage of revenue ( “Relevant Percentage”), where, unless otherwise specified in the grant of permission, the Relevant Percentage shall be 10%; and (b) Each year on the anniversary of the date upon which you were granted permission by TII to make Commercial Use of the relevant Work (the “Anniversary Date") You shall account to TII in writing in full for all revenue you have received in the previous 12 months which is attributable (whether directly or indirectly) to Your use of the relevant Work (“Attributable Revenue”); and

这是不是意味着你得向TII透露你的财务信息呢!

Falcon模型系列版本

Falcon模型目前有3个版本:

Falcon模型名称简介模型信息卡地址
Falcon-40B基础的大语言模型,适合对特定领域任务做微调,各项任务得分都很高。https://www.datalearner.com/ai-models/pretrained-models/Falcon-40B
Falcon-40B-Instruct针对指令微调的版本,适合聊天,不过不合适继续做微调https://www.datalearner.com/ai/pretrained-models/Falcon-40B-Instruct
Falcon-7B70亿参数版本,规模更小,预训练结果文件仅14.33GBhttps://www.datalearner.com/ai/pretrained-models/Falcon-7B

DataLearner WeChat

Follow DataLearner WeChat for the latest AI updates

DataLearner 官方微信二维码
Back to Blog List

Related Blogs

  • 来自Microsoft Build 2023:大语言模型是如何被训练出来的以及语言模型如何变成ChatGPT——State of GPT详解
  • 如何微调大语言模型?吴恩达联合LaminiAI最新一个小时短课教会大模型微调!这次是面向中级水平人员~
  • 吴恩达再开新课程!如何基于大语言模型实现更强大的语义搜索课程!
  • 又一个国产开源大模型发布:前腾讯创始人创业公司元象发布XVERSE-13B,超过Baichuan-13B,与ChatGLM2-12B齐平!但免费商用授权!
  • 清华大学ChatGLM团队发布AI Agent能力评测工具AgentBench:GPT-4一骑绝尘,chatglm2表现优秀,baichuan-7b排名倒数!
  • 如何基于Gradio构建生成式AI的应用:吴恩达联合HuggingFace推出最新1小时短课
  • EleutherAI、MetaAI、StabilityAI、伦敦大学等合作的最新关于大语言模型的11个应用方向和16个挑战总结:来自688篇参考文献与业界实践
  • 大模型驱动的自动代理(AI Agent):将语言模型的能力变成通用能力的一种方式——来自OpenAI安全团队负责人的解释与观点

Hot Blogs

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署