开源大语言模型再次大幅进步:微软团队开源的第二代WizardLM2系列在MT-Bench得分上超过一众闭源模型,得分仅次于GPT-4最新版
开源大模型是促进大模型技术发展最重要的技术力量之一。此次,微软以Apache 2.0开源协议开源了一个在ChatArena匿名投票评测上打败GPT-4早期版本的模型,即WizardLM-2。这是一系列模型,其中最大的版本是基于Mixtral-8×22B开源模型进行后训练得到的模型。MT-Bench得分8.96,超过了GPT-4-0314。

WizardLM系列模型背后的历史
WizardLM最早是由北京大学的童鞋开源的成果。是基于Evol-Instruct方法得到的指令数据集进行微调得到的。Evol-Instruct是一种用来生成复杂的多样化指令数据集的方法。给定初始的指令数据集,通过一步步的改写的阿斗更加复杂和多样的指令数据,这样的数据用于大模型的微调可以极大提高模型的能力。
WizardLM系列包含很多个模型,而本次开源的WizardLM系列则是第二代。其能力的提升也非常明显,而基座模型也换成了当前最强的三个开源模型,分别是Mixtral-8×22B、Llama2-70B和Mistral 7B。
由于当前作者没有开放论文,暂不清楚第二代模型和第一代模型的方法上的具体差别。不过,作者提到,WizardLM2系列模型在复杂的对话、多语言、推理和agent等能力上都有非常多的进步。
WizardLM-2系列模型简介
在2024年4月初,CohereAI开源的Command R+是第一个在ChatArena上打败早期GPT-4版本的开源大模型,不过它不可以商用(参考:开源模型进展迅猛!最新开源不可商用模型Command R+在大模型匿名投票得分上已经超过GPT-4-Turbo!)。

