Meta开源Llama3.3-70B-Instruct模型:大模型后训练的佳作,性能超越4050亿参数规模的Llama3.1-405B大模型!
Llama系列大语言模型一直是开源领域的大模型标杆,Llama3系列大模型自从开源之后一直在不断更新。最早的Llama3模型于2024年4月开源,此后,几乎每个三个月都有一个新版本发布。就在昨天,Meta开源了最新的Llama3.3-70B模型,这是Llama3.3系列目前唯一开源的模型。尽管该模型的参数规模仅仅700亿,但是在多项评测基准上已经超过了4050亿参数规模的Llama3.1-405B,后者是Llama系列模型中参数规模最大的一个,也是业界开源模型中参数规模最高的模型之一。

Llama3.3-70B-Instruct简介
Llama3.3-70B-Instruct是目前Llama3.3系列中唯一开源的模型,且没有基座大模型,仅开源了指令优化版本的模型。
根据官方的介绍,Llama3.3-70B-Instruct是经过预训练以及指令微调的模型,参数规模700亿,是一个纯文本的大语言模型,这意味着它不支持多模态的输入和输出,仅支持文本的输入和输出。不过Llama3.3-70B-Instruct是多语言大模型,支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语共8种语言,不支持中文(这里非常奇怪的是,汉语作为广泛使用的语言,一直不在Llama系列的支持范围,哪怕欧洲的Mistral都开始支持汉语了,这个模型也不支持,小扎这位同志觉悟有点问题啊~)。
Llama3.3-70B-Instruct在15万亿tokens上训练,支持128K上下文输入。知识日期是截止2023年12月份。
该模型效果的提升主要依赖于对齐训练技术和强化学习的进步。Meta官方简单提了是基于合成数据,做了在线偏好优化,可以在训练过程中,基于反馈结果实时优化模型。
此外,Llama3.3-70B-Instruct支持GQA,即Grouped-Query Attention,GQA 减少了注意力机制的计算复杂度,这对于像 Llama 3.3 这样的 700亿参数大模型尤为重要。在推理阶段,它使得模型能够以更高的速度生成文本。


