彭博社发布金融领域的ChatGPT模型——BloombergGPT
彭博社今天发布了一份研究论文,详细介绍了BloombergGPT的开发,这是一个新的大规模生成式人工智能(AI)模型。这个大型语言模型(LLM)经过专门的金融数据训练,支持金融业内的多种自然语言处理(NLP)任务。
与最近发布的模型不同,BloombergGPT是Bloomberg基于基于Hoffmann等人(2022年)和Le Scao等人(2022年)的指南进行设计。目前很少存在领域特定的LLM,这些模型仅在领域特定的数据源上进行训练,或者将一个非常大的通用模型适应于领域特定任务。而Bloomberg则是选择在领域特定和通用数据源上训练LLM。
该模型是是基于BLOOM(BLOOM是BigScience团队研发的一个大模型:https://www.datalearner.com/ai-models/pretrained-models/bloom )的仅解码器因果语言模型。
BloombergGPT目前已经收录进入DataLearner模型库中:https://www.datalearner.com/ai-models/pretrained-models/BloombergGPT
需要注意的是,BloombergGPT里面使用的金融数据占比约54.2%,约有3630亿个tokens。
彭博社的研究人员开创了一种混合方法,将金融数据与通用数据集相结合,训练出一个在金融基准测试中取得最佳成绩的模型,同时在通用LLM基准测试中保持竞争性能。
为了实现这一里程碑,彭博社的机器学习产品和研究团队与公司的人工智能工程团队合作,构建了迄今为止最大的专业领域数据集之一,利用了公司现有的数据创造、收集和筛选资源。作为一家金融数据公司,彭博社的数据分析师在过去40年中收集和维护了金融语言文档。团队从这个广泛的金融数据档案中提取数据,创建了一个包含3630亿个英语金融文档的全面数据集。
这些数据与一个包含3450亿个token的公共数据集相结合,形成了一个超过7000亿个token的大型训练语料库。利用这部分训练语料库,团队训练了一个500亿个参数的仅解码器因果语言模型。
得注意的是,BloombergGPT模型在金融任务上的表现远远优于现有的同等大小的开放模型,同时在通用NLP基准测试中表现相当或更好。
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
