WizardLM-2-8x22b：目前最强大的开源大语言模型

WizardLM-2-8x22b：目前表现最佳的开源大语言模型

最近几天，四个引人注目的大语言模型被相继发布，它们分别是：

Command-R+
Mixtral-8x22b-instruct
WizardLM-2-8x22b
Llama-3-70b-instruct

为了确定哪个模型最适合自己的使用场景，有人不想依赖知名的基准测试，因为它们很可能已经成为各个模型训练数据的一部分，从而变得不可靠。因此，他在过去几天里开发了自己的基准测试，主要涉及推理思维、知识问答和高中水平的数学能力。此外，他还尝试并行使用了上述四个模型进行查询，以感受回答的质量。

WizardLM-2-8x22b：精准知识问答与出色推理能力

根据测试者的印象，经过微调的WizardLM-2-8x22b显然是最适合他应用场景的模型。它能够对基于知识的问题给出精确而完整的答案，在推理思维和解决数学问题方面更是其他模型无法比拟的。

以下是一位用户在together.ai上尝试WizardLM-2-8x22b的体验：

它非常令人印象深刻，能够很好地保持对话，并帮助扩展想法和角色。我没有足够的计算资源在自己的电脑上尝试完整版本，但我确实注意到together.ai版本有一个奇怪的倾向，即在回应中剩下几句话时就切断答案。我可以通过简单地输入”更多”来解决这个问题，但当它一次又一次地发生时，还是有点烦人。

另一位用户也证实了它在知识问答方面的出色表现：

我在OpenRouter中尝试了很多模型，当然包括gpt4和claude opus，只有WizardLM-2-8x22b提供了一些非常令人满意的结果。我基本上是尝试通过提供类型名称和简短描述来生成与类型相关的属性的json模板。WizardLM-2-8x22b非常全面，提供了精心设计的模板建议。

Llama-3-70b-instruct：数学能力突出

Llama-3-70b-instruct的表现也相当不错，但在各个方面都略逊于WizardLM。不过它的强项更多体现在数学领域。

在测试者的基准测试中，Llama-3在数学技能方面表现出色，而Command-R+则在回答知识问题上优于Llama-3。

量化与提示词优化

为了在有限的计算资源下使用这些大模型，量化是一个重要的优化手段。测试者在测试中使用了llama.cpp的Q6_K量化版本。此外，对于Command-R+，他使用了Huggingface上的空间，对于Llama-3和Mixtral，他还使用了labs.perplexity.ai。

除了量化之外，优化提示词和推理参数也有助于发挥模型的最佳性能。测试者建议大家根据自己的实际使用场景，设计真实世界的问题来测试模型，而不是给模型灌输谜题或让它编写常见的示例项目。当你向语言模型提出一个有用的实际问题（如何做…？什么是…？调试这个…，解释这个…）时，请记下来。特别是当它给出错误答案时。同时记下正确答案，并在测试下一个语言模型时输入该问题。在不同的量化版本、微调版本和模型上尝试。这样你就能真正了解它们的性能了。

总结

根据目前的讨论和测试，WizardLM-2-8x22b在推理思维、知识问答和数学能力等方面展现了最强大的综合实力，堪称目前最出色的开源大语言模型。Llama-3-70b-instruct紧随其后，数学能力尤其突出。Command-R+在知识问答上也有不俗表现。

为了在实际应用中发挥这些大模型的潜力，除了选择合适的模型，量化优化、提示词设计和推理参数调整等也是重要的考量因素。建议大家针对自己的使用场景，设计真实世界的问题来测试模型性能，并在不同的量化版本和微调版本上进行尝试，以找到最佳组合。相信随着开源大语言模型的不断发展，我们将看到更多令人惊艳的应用案例涌现。