BL

BloombergGPT

BloombergGPT

发布时间: 2023-03-30847
模型参数
500.0亿
上下文长度
2K
中文支持
不支持
推理能力

模型基本信息

推理过程
不支持
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
基础大模型
发布时间
2023-03-30
模型文件大小
暂无数据
MoE架构
总参数 / 激活参数
500.0 亿 / 不涉及
知识截止
暂无数据
推理模式
暂无模式数据

开源和体验地址

代码开源状态
暂无数据
预训练权重开源
暂无数据
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。

评测得分

当前尚无可展示的评测数据。

发布机构

模型解读

BloombergGPT是BloombergGPT发布的一个金融领域的大模型,参数500亿。主要使用通用数据以及彭博社40多年积累的金融领域数据进行训练。


与最近发布的模型不同,BloombergGPT是Bloomberg基于基于Hoffmann等人(2022年)和Le Scao等人(2022年)的指南进行设计。目前很少存在领域特定的LLM,这些模型仅在领域特定的数据源上进行训练,或者将一个非常大的通用模型适应于领域特定任务。而Bloomberg则是选择在领域特定和通用数据源上训练LLM。


BloombergGPT模型参数约500亿,训练tokens数约5700亿!具体的,他们训练的数据如下:



需要注意的是,BloombergGPT里面使用的金融数据占比约54.2%,约有3630亿个tokens。


Bloomberg终端在过去40年中提供了全面的结构化和非结构化金融数据和分析。为了实现这一目标,Bloomberg分析师策划了一组金融文档,这些文档要么是内部创建的,要么是从外部来源获得的。我们利用这一广泛的、精心策划和维护的文档集合创建了FinPile,其中包括公司申报文件、金融新闻和其他与金融市场相关的数据。


FinPile中包含的一些文档(例如公司申报文件)对公众开放,尽管收集这些文档并为LLM训练进行预处理是一个非平凡的任务。其他文档,如(Bloomberg新闻的子集),必须购买。其余文档是私有的,并且可以通过Bloomberg终端等其他来源获得。最后,我们对这些数据进行清理,以去除标记、特殊格式和模板。


需要注意的是,FinPile中的每个文档都有时间戳,日期范围从2007-03-01到2022-07-31;文档的质量和数量随时间增加而增加。虽然我们在这项工作中没有使用日期信息,但我们计划在未来使用它,例如用于评估模型对不同时间段的学习情况。虽然我们无法发布FinPile,但我们在大规模、精心策划和干净的领域特定数据集上进行训练的经验可能为社区提供有用的见解,这些见解涉及特别是构建金融LLM的优点和挑战,以及领域特定模型的优点和挑战。我们在表2中提供了FinPile的分类和分析,并对包括的数据类型进行了简要描述。


具体的金融数据包括:




BloombergGPT模型的具体参数如下:


参数项参数结果
模型层数70
Heads数量40
词汇数量131072
隐维度7680
模型参数总量506亿
最高学习速率6e*5
最终学习速率6e-6
学习速率调度cosine decay
梯度Clipping0.3
训练使用的tokens数量5690亿
硬件资源64 × 8 A100 40GB
处理速度(Throughput)32.5 sec/step
平均TFLOPs102
总FLOPS2.36e23


作者也在BIG-BENCH做了测试,结果显示BloombergGPT效果十分优秀。与GPT-NeoX、OPT、PaLM等相比也是非常出色。


下图是BloombergGPT问答对比结果实例:


下图是在财经领域和通用领域中BloombergGPT的效果对比:



不过可惜的是,BloombergGPT并不是开源的模型。

基础模型

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码