DO

Dolly

基础大模型dolly

Dolly

发布时间: 2023-03-24更新于: 2023-05-21 21:46:09.182811
模型参数
60亿
上下文长度
2K
中文支持
不支持
推理能力

Dolly 是由 databricks 发布的 AI 模型,发布时间为 2023-03-24,定位为 基础大模型,参数规模约为 60亿,上下文长度为 2K,模型文件大小约 12.2GB。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

Dolly

模型基本信息

推理过程
不支持
思考模式
不支持思考模式
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
基础大模型
输入/输出模态
暂无数据
发布时间
2023-03-24
模型文件大小
12.2GB
MoE架构
总参数 / 激活参数
60亿 / 不涉及
知识截止
暂无数据
Dolly

开源和体验地址

代码开源状态
暂无数据
预训练权重开源
暂无数据
在线体验
暂无在线体验地址
Dolly

官方介绍与博客

DataLearnerAI博客
暂无介绍博客
Dolly

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。
Dolly

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合?打开对比工具

Dolly

发布机构

Dolly

模型解读

Dolly是由Databricks公司发布的一个低成本的大型语言模型(LLM),具有与ChatGPT相似的惊人的指令跟随能力。而Alpaca团队的工作表明,最先进的模型可以被引导出高质量的指令跟随行为,我们发现即使是早期架构的开源模型,只要在少量的指令训练数据上进行微调,也能展现出引人注目的行为。Dolly的工作原理是采用EleutherAI的一个现有的开源6亿参数模型,经过微小的修改,利用Alpaca的数据调整以产生类似头脑风暴和文本生成等指令跟随能力,这些能力在原始模型中并不存在。


与GPT-3的1750亿参数相比,Dolly模型仅有6亿参数,而且已经有两年的历史了,这使得它能够如此出色的表现,特别令人惊讶。这表明,像ChatGPT这样的最先进模型的许多定性收益可能是由于专注于指令跟随训练数据,而不是更大或更好调整的基础模型。我们将这个模型称为Dolly,以Dolly the sheep(多利羊)为名,这是第一个克隆的哺乳动物,因为它是一个开源的Alpaca克隆版,受到LLaMA的启发。我们现在处于AI赋能企业的最早阶段,还有很多工作要做,但是我们相信Dolly背后的技术代表了一个令人兴奋的新机会,适用于想要廉价构建自己的指令跟随模型的公司。


我们对Dolly进行了评估,评估的指标是基于InstructGPT论文描述的指令跟随能力,而ChatGPT正是基于这个论文。我们发现Dolly表现出了许多相同的定性能力,包括文本生成、头脑风暴和开放式问答。在这些例子中,特别值得注意的不是生成的文本质量,而是通过在一个高质量的小数据集上微调一个几年前的开源模型,能够显著提高指令跟随能力的结果。


目前开放的Databricks的Dolly-v1-6b是一个60亿参数的大型语言模型,它在Databricks机器学习平台上进行了训练,表明一个两年前的开源模型,在经过短短30分钟的精细调整后,能够展现出非常高质量的指令跟随行为,这与其基础模型的特征不同。这一发现非常重要,因为它证明了创造强大的人工智能技术的能力远比以前所认为的要容易得多。


今年的数据和人工智能峰会上Databricks将会分享Dolly的训练细节。


目前开源的版本细节

dolly-v1-6b是由Databricks创建的一个60亿参数的因果语言模型,它源自EleutherAI的GPT-J(于2021年6月发布),并在一个约为52,000个记录的指令语料库(Stanford Alpaca)(CC-NC-BY-4.0)上进行了微调,其中包括使用Self-Instruct论文中概述的技术生成的问答对。Dolly的原始版本是使用deepspeed ZeRO 3在Databricks机器学习平台上训练的,仅使用一台NDasrA100_v4机器和8个A100 40GB GPU,只需30分钟(1个epoch)即可完成。最近的dolly-v1-6b checkpoints在相同的硬件上进行了10个epochs的训练。

与其基础模型类似,dolly-v1-6b有60亿个参数,包括28个变压器层,每个层有16个注意头。它采用了Rotary Position Embedding(RoPE)并与GPT-3共享相同的分词器。GPT-J是在The Pile上进行训练的,这是一个主要用于文本生成任务的各种文档的400B标记数据集。

基础模型

GPT-J 6B
GPT-J 6B
查看详情

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码