LL

LLaMA Adapter V2

基础大模型

LLaMA Adapter V2

发布时间: 2023-04-28

605
模型参数(Parameters)
650.0
最高上下文长度(Context Length)
2K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

2K tokens

最长输出结果
暂无数据
模型类型

基础大模型

发布时间

2023-04-28

模型预文件大小
暂无数据

开源和体验地址

代码开源状态
预训练权重开源
-
GitHub 源码
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度(满分5分)
暂无数据
接口价格
暂无公开的 API 定价信息。

LLaMA Adapter V2模型在各大评测榜单的评分

当前尚无可展示的评测数据。

发布机构

上海人工智能实验室
上海人工智能实验室
查看发布机构详情

LLaMA Adapter V2模型解读

LLaMA-Adapter是2023年3月份提出的一个微调大语言模型的方法。该方法与斯坦福的Alpaca不同,是在预训练模型的上面加了一个1200万参数的结构,将其余部分冻结来做微调的结果。这个模型效果非常好,引起了广泛的关注。而本次发布的V2版本则是继续将大模型的微调推广到多模态部分。


如何有效地将大型语言模型(LLM)转换为指令追随者是最近流行的研究方向,而训练LLM进行多模态推理的研究较少。尽管最近的LLaMA Adapter展示了用LLM处理视觉输入的潜力,但它仍然不能很好地推广到开放式视觉指令,并且落后于GPT-4。


LLaMA Adapter V2是一个参数有效的可视化指令模型。具体来说,首先通过解锁更多可学习的参数(例如,范数、偏差和尺度)来增强LLaMA Adapter,这些参数将指令跟随能力分布在除适配器之外的整个LLaMA模型中。


其次,提出了一种早期融合策略,只将视觉标记馈送到早期LLM层,有助于更好地整合视觉知识。


第三,通过优化可学习参数的不相交组,引入了图像-文本对和指令跟随数据的联合训练范式。该策略有效地缓解了图像-文本对齐和指令跟随两个任务之间的干扰,并仅使用小规模的图像-文本和指令数据集就实现了强大的多模态推理。


在推理过程中,将额外的专家模型(如字幕/OCR系统)纳入LLaMA Adapter,以进一步增强其图像理解能力,而不产生训练成本。与原始LLaMA Adapter相比,LLaMA Adapter V2只需在LLaMA上引入14M参数,就可以执行开放式多模态指令。新设计的框架还表现出更强的纯语言指令跟随能力,甚至在聊天交互方面表现出色。


Foundation Model

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat