数学推理能力超过ChatGPT-3.5:微软与中科院研究人员合作最新的开源大模型WizardMath发布!开源模型第一,免费商用授权!
WizardLM是微软与中科院合作开源的一个大语言模型。此前,发布的WizardLM和WizardCoder都是业界开源领域最强的大模型。其中,前者是针对指令优化的大模型,而后者则是针对编程优化的大模型。而此次WizardMath则是他们发布的第三个大模型系列,主要是针对数学推理优化的大模型。在GSM8K的评测上,WizardMath得分超过了ChatGPT-3.5、Claude Instant-1等闭源商业模型,得分十分逆天!

WizardMath简介
WizardMath是微软与中科院的研究人员联合开源的一个针对数学推理优化的大模型。这是WizardLM系列的第三种模型。
在2023年4月份,微软与北大研究人员发布了WizardLM。这个模型是基于Evol-Instruct方法微调得到的,是一个使用人工指令数据(如InstructGPT)来提升大语言模型(LLM)的指令执行能力的大模型。
简单来说WizardLM系列模型就是用一个小规模初始指令数据集来进行进一步扩展,扩展的方式就是针对每个指令,随机选择In-Depth演化或In-Breadth演化中的一种方式进行演化。In-Depth是使用特定prompt对给定指令进行加限制、深化等操作得到更复杂版本。In-Breadth是基于给定指令生成新指令。反复这个过程之后就可以获得足够数量和难度分布均匀的指令数据。进而可以用来进一步微调大模型。
WizardLM就是基于上述方法微调得到的。在公开的评测结果种,该方法的效果大约是ChatGPT的90%的水平。在后续的研究中,他们进一步发布了WizardLM-70B(基于最新的LLaMA2微调)和编程大模型WizardCoder-15B(基于StarCoder微调)。效果都十分优秀。


