加载中...

LO

LongForm LLaMA 7B

LongForm LLaMA 7B

发布时间: 2023-04-26451

在线体验 GitHub Hugging Face

模型参数

70.0亿

上下文长度

2K

中文支持

不支持

推理能力

模型基本信息

推理过程

不支持

上下文长度

2K tokens

最大输出长度

暂无数据

模型类型

暂无数据

发布时间

2023-04-26

模型文件大小

28GB

MoE架构

否

总参数 / 激活参数

70.0 亿 / 不涉及

知识截止

暂无数据

推理模式

暂无模式数据

开源和体验地址

代码开源状态

暂无数据

预训练权重开源

暂无数据

GitHub 源码

https://github.com/akoksal/LongForm

Hugging Face

https://huggingface.co/akoksal/LongForm-LLaMA-7B-diff

在线体验

暂无在线体验地址

官方介绍与博客

官方论文

LongForm: Optimizing Instruction Tuning for Long Text Generation with Corpus Extraction

DataLearnerAI博客

暂无介绍博客

API接口信息

接口速度

暂无数据

暂无公开的 API 定价信息。

评测得分

当前尚无可展示的评测数据。

发布机构

个人

查看发布机构详情

模型解读

LongForm LLaMA 7B是慕尼黑大学研究人员基于LongForm数据集微调LLaMA模型的预训练大模型。LongForm是一系列指令微调数据集，包含27739条记录。这是通过使用LLM从数据集中生成指令后得到的指令微调数据集。是一种低成本高质量的指令微调数据集获取方法。

LongForm LLaMA 7B就是利用上述数据集，用LLaMA微调得到的。但是，由于LLaMA模型协议的限制，研究人员无法直接发布基于LLaMA微调的任何结果。因此，他们发布了一个diff模型：LongForm-LLaMA-7B-diff。

LongForm-LLaMA-7B-diff是一个预训练结果，但是这个预训练结果是LongForm-LLaMA-7B与原始LLaMA-7B模型的差异结果。也就是说不包含原始LLaMA的任意部分。这也是规避MetaAI模型开源限制的方法。使用的时候，需要先从MetaAI那里获取原始的LLaMA模型，然后再加载这个LongForm-LLaMA-7B-diff模型，将二者合并之后得到真正的LongForm LLaMA 7B模型后才能使用。

根据官方的测试，基于LongForm数据集微调的模型效果非常好：

模型名称	平均得分得分	菜谱生成得分	ELI5得分	Prompts撰写得分
T0++	10.9	18.7	3.8	10.2
Tk-Instruct	6.3	12.9*	3.6	2.4
Flan-T5	10.6	20.9*	3.5	7.4
Alpaca-LLaMA-7B	14.6	19.5	12.5	11.8
OPT-30B	11.1	18.6	12.2	2.6
LongForm-T5-XL	16.3	20.2	18.3	10.6
LongForm-OPT-2.7B	17.8	15.5	17.9	19.9
LongForm-OPT-6.7B	17.7	16.9	17.2	19.0
LongForm-LLaMA-7B	19.7	21.7	18.6	18.9

基础模型

LLaMA

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

DataLearner 官方微信二维码