LongForm OPT是由慕尼黑大学研究人员开放的一系列基于OPT微调的大预言模型。这个系列的模型是基于他们提出的LongForm数据集对OPT模型微调得到的。其中OPT模型是指MetaAI开源的1750亿参数规模的大预言模型： https://www.datalearner.com/ai-models/pretrained-models/OPT

LongForm数据集是一个指令微调数据集。研究人员使用大语言模型（Large Language Models，LLM）从现有的语料数据集，如C4、维基百科等中的文章提取指令，来生成大量的指令微调数据集。这种方法可以以较低的成本获取干净的指令微调数据集。再基于这些数据集微调T5、OPT和LLaMA模型，就可以提升这些模型的生成质量，并可以用来生成长文本。

最终，LongForm数据集的结果如下：

数据集类型	来源	样本数据量
Corpora	C4	10000
Corpora	Wikipedia	5000
Structured Corpora	Stack Exchange	4380
Structured Corpora	WikiHow	2500
Tasks	NIv2	3684
Tasks	Big Bench	600
Tasks	BEA-GEC	1203
Tasks	Enron	372
总计		27739

目前，LongForm-OPT系列包含4个模型：

LongForm-OPT模型名称	参数大小	HuggingFace资源链接
LongForm-OPT-6.7B	67亿	https://huggingface.co/akoksal/LongForm-OPT-6.7B
LongForm-OPT-1.3B	13亿	https://huggingface.co/akoksal/LongForm-OPT-1.3B
LongForm-OPT-350M	3.5亿	https://huggingface.co/akoksal/LongForm-OPT-350M
LongForm-OPT-125M	1.25亿	https://huggingface.co/akoksal/LongForm-OPT-125M

LongForm-OPT系列模型本身是开源的，使用MIT开源协议，但是OPT本身的协议是MetaAI的模型协议，不支持商用。

LongForm OPT

模型基本信息

是否支持推理过程

最高上下文输入长度

最长输出结果

模型类型

发布时间

模型预文件大小

开源和体验地址

代码开源状态

预训练权重开源

GitHub 源码

Hugging Face

在线体验

官方介绍与博客

官方论文

DataLearnerAI博客

API接口信息

接口速度（满分5分）

接口价格

输入价格:

输出价格:

输入支持的模态

文本

图片

视频

音频

Embedding（向量）

输出支持的模态

文本

图片

视频

音频

Embedding（向量）

LongForm OPT模型在各大评测榜单的评分

发布机构

模型介绍

关注DataLearnerAI公众号