Falcon 40B

Name: Falcon 40B
Author: The Technology Innovation Institute

基础大模型Falcon

Falcon 40B

发布时间: 2023-05-24更新于: 2023-06-04 12:00:56.594285

在线体验GitHubHugging Face Compare

模型参数

400亿

上下文长度

中文支持

不支持

推理能力

Falcon 40B 是由 The Technology Innovation Institute 发布的 AI 模型，发布时间为 2023-05-24，定位为基础大模型，参数规模约为 400亿，上下文长度为 2K，模型文件大小约 83.5GB，采用 Apache 2.0 许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

Falcon 40B

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

2K tokens

最大输出长度

暂无数据

模型类型

基础大模型

输入/输出模态

暂无数据

发布时间

2023-05-24

模型文件大小

83.5GB

MoE架构

否

总参数 / 激活参数

400亿 / 不涉及

知识截止

暂无数据

Falcon 40B

开源和体验地址

代码开源状态

Apache 2.0

预训练权重开源

Apache 2.0- 免费商用授权

GitHub 源码

暂无GitHub开源地址

Hugging Face

https://huggingface.co/tiiuae/falcon-40b

在线体验

暂无在线体验地址

Falcon 40B

官方介绍与博客

官方论文

暂无官方论文

DataLearnerAI博客

暂无介绍博客

Falcon 40B

API接口信息

接口速度

暂无数据

暂无公开的 API 定价信息。

Falcon 40B

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

Falcon 40B

发布机构

The Technology Innovation Institute

查看发布机构详情

Falcon 40B

模型解读

--------------------------2023年6月1日更新----------------------------

最新的Falcon系列模型抛弃了原有的模型税的开源协议，全部采用apache 2.0开源协议，完全开源！

--------------------------2023年6月1日更新----------------------------

关于Falcon-40B详细信息参考： https://www.datalearner.com/blog/1051685195573122

Falcon-40B是由TII开发的一种40B参数的因果解码器模型，它在RefinedWeb上训练了1,000B个令牌，RefinedWeb是一个经过筛选和去重的高质量网络数据集，TII还在其中增加了精选的语料库。Falcon-40B的许可证是TII Falcon LLM License，允许商业使用。

模型的特点包括：

性能优越：Falcon-40B是目前最好的开源模型，它在OpenLLM Leaderboard上超过了LLaMA、StableLM、RedPajama、MPT等模型。
优化的架构：Falcon-40B采用了优化的架构，包括FlashAttention（Dao等人，2022年）和multiquery（Shazeer等人，2019年）。
适用于商业使用：Falcon-40B的许可证允许商业使用。
预训练模型：Falcon-40B是一个原始的预训练模型，应该进一步微调以适应大多数用例。

模型的训练细节

Falcon-40B在384个A100 40GB GPUs上进行训练，使用了3D并行策略（TP=8，PP=4，DP=12）和ZeRO。训练开始于2022年12月，持续了两个月。

模型的技术规格：

Falcon-40B是一个因果解码器模型，训练任务是因果语言建模（即预测下一个令牌）。它的架构主要参考了GPT-3论文（Brown等人，2020年），但有以下区别：

位置嵌入：旋转（Su等人，2021年）；
注意力：multiquery（Shazeer等人，2019年）和FlashAttention（Dao等人，2022年）；
解码器块：并行注意力/MLP，带有两层规范。

Falcon-40B在AWS SageMaker上进行训练，使用了384个A100 40GB GPUs的P4d实例。它使用了一个定制的分布式训练代码库，Gigatron，它使用了3D并行方法，结合了ZeRO和高性能的Triton内核（FlashAttention等）。

许可协议

Falcon-40B在TII Falcon LLM License下提供。大致来说，你可以自由地用我们的模型进行研究和/或个人目的；你可以分享和构建这些模型的衍生物，但你需要给出归因，并以相同的许可证分享；对于商业用途，如果可归因的收入低于每年1M美元，你可以免除版税支付，否则你应该与TII签订商业合同。

上述模型协议已经被取消，改成了Apache 2.0开源协议！参考官方宣布： https://www.tii.ae/news/uaes-falcon-40b-now-royalty-free

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送