LLaMA Adapter V2
LLaMA Adapter V2
模型参数
650.0亿
上下文长度
2K
中文支持
不支持
推理能力
模型基本信息
推理过程
不支持
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
暂无数据
发布时间
2023-04-28
模型文件大小
暂无数据
MoE架构
否
总参数 / 激活参数
650.0 亿 / 不涉及
知识截止
暂无数据
推理模式
暂无模式数据
开源和体验地址
代码开源状态
暂无数据
预训练权重开源
暂无数据
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址
官方介绍与博客
DataLearnerAI博客
暂无介绍博客
API接口信息
接口速度
暂无数据
暂无公开的 API 定价信息。
评测得分
当前尚无可展示的评测数据。
发布机构
上海人工智能实验室
查看发布机构详情 模型解读
LLaMA-Adapter是2023年3月份提出的一个微调大语言模型的方法。该方法与斯坦福的Alpaca不同,是在预训练模型的上面加了一个1200万参数的结构,将其余部分冻结来做微调的结果。这个模型效果非常好,引起了广泛的关注。而本次发布的V2版本则是继续将大模型的微调推广到多模态部分。
如何有效地将大型语言模型(LLM)转换为指令追随者是最近流行的研究方向,而训练LLM进行多模态推理的研究较少。尽管最近的LLaMA Adapter展示了用LLM处理视觉输入的潜力,但它仍然不能很好地推广到开放式视觉指令,并且落后于GPT-4。
LLaMA Adapter V2是一个参数有效的可视化指令模型。具体来说,首先通过解锁更多可学习的参数(例如,范数、偏差和尺度)来增强LLaMA Adapter,这些参数将指令跟随能力分布在除适配器之外的整个LLaMA模型中。
其次,提出了一种早期融合策略,只将视觉标记馈送到早期LLM层,有助于更好地整合视觉知识。
第三,通过优化可学习参数的不相交组,引入了图像-文本对和指令跟随数据的联合训练范式。该策略有效地缓解了图像-文本对齐和指令跟随两个任务之间的干扰,并仅使用小规模的图像-文本和指令数据集就实现了强大的多模态推理。
在推理过程中,将额外的专家模型(如字幕/OCR系统)纳入LLaMA Adapter,以进一步增强其图像理解能力,而不产生训练成本。与原始LLaMA Adapter相比,LLaMA Adapter V2只需在LLaMA上引入14M参数,就可以执行开放式多模态指令。新设计的框架还表现出更强的纯语言指令跟随能力,甚至在聊天交互方面表现出色。

基础模型
LLaMA
查看详情DataLearner 官方微信
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
