Falcon 40B - Falcon 40B

模型详细情况和参数

Falcon 40B

模型全称
Falcon 40B
模型简称
Falcon 40B
模型类型
基础大模型
发布日期
2023-05-24
预训练文件大小
83.5GB
是否支持中文(中文优化)
最高支持的上下文长度
2K
模型参数数量(亿)
400
代码是否开源
Apache 2.0
预训练结果是否开源
Apache 2.0
预训练结果商用授权情况
免费商用授权
模型GitHub链接
暂无
发布论文名(官方博客名)
暂无
论文地址(官方博客地址)
暂无
基础模型
无基础模型

Falcon 40B 简介

--------------------------2023年6月1日更新----------------------------

最新的Falcon系列模型抛弃了原有的模型税的开源协议,全部采用apache 2.0开源协议,完全开源!

--------------------------2023年6月1日更新----------------------------


关于Falcon-40B详细信息参考: https://www.datalearner.com/blog/1051685195573122 


Falcon-40B是由TII开发的一种40B参数的因果解码器模型,它在RefinedWeb上训练了1,000B个令牌,RefinedWeb是一个经过筛选和去重的高质量网络数据集,TII还在其中增加了精选的语料库。Falcon-40B的许可证是TII Falcon LLM License,允许商业使用。


模型的特点包括:

  1. 性能优越:Falcon-40B是目前最好的开源模型,它在OpenLLM Leaderboard上超过了LLaMA、StableLM、RedPajama、MPT等模型。
  2. 优化的架构:Falcon-40B采用了优化的架构,包括FlashAttention(Dao等人,2022年)和multiquery(Shazeer等人,2019年)。
  3. 适用于商业使用:Falcon-40B的许可证允许商业使用。
  4. 预训练模型:Falcon-40B是一个原始的预训练模型,应该进一步微调以适应大多数用例。
模型的训练细节

Falcon-40B在384个A100 40GB GPUs上进行训练,使用了3D并行策略(TP=8,PP=4,DP=12)和ZeRO。训练开始于2022年12月,持续了两个月。

模型的技术规格:

Falcon-40B是一个因果解码器模型,训练任务是因果语言建模(即预测下一个令牌)。它的架构主要参考了GPT-3论文(Brown等人,2020年),但有以下区别:

  • 位置嵌入:旋转(Su等人,2021年);
  • 注意力:multiquery(Shazeer等人,2019年)和FlashAttention(Dao等人,2022年);
  • 解码器块:并行注意力/MLP,带有两层规范。

Falcon-40B在AWS SageMaker上进行训练,使用了384个A100 40GB GPUs的P4d实例。它使用了一个定制的分布式训练代码库,Gigatron,它使用了3D并行方法,结合了ZeRO和高性能的Triton内核(FlashAttention等)。


许可协议

Falcon-40B在TII Falcon LLM License下提供。大致来说,你可以自由地用我们的模型进行研究和/或个人目的;你可以分享和构建这些模型的衍生物,但你需要给出归因,并以相同的许可证分享;对于商业用途,如果可归因的收入低于每年1M美元,你可以免除版税支付,否则你应该与TII签订商业合同。


上述模型协议已经被取消,改成了Apache 2.0开源协议!参考官方宣布: https://www.tii.ae/news/uaes-falcon-40b-now-royalty-free 


欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

Falcon 40B所属的领域
自然语言处理

自然语言处理

Natural Language Process

35个资源

Falcon 40B相关的任务
问答系统

问答系统

Question Answering

35个资源