DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
  1. 首页/
  2. 博客列表/
  3. 博客详情

重磅!第二代通义千问大模型开源,阿里巴巴一口气开源了30个不同参数规模的模型,其中Qwen1.5-72B仅次于GPT-4.

2024/02/06 01:35:59
4,484 阅读
QwenQwen1.5Qwen2千问大模型通义千问通义千问大模型

Qwen大语言模型是由阿里巴巴训练并开源的一系列大语言模型。最早是在2023年8月份开源70亿参数规模,随后几个月时间内陆续开源了4个不同规模版本的模型,最低参数18亿,最高参数720亿。而今天阿里巴巴开源了他们家第二代的Qwen系列大语言模型(准确说是1.5代),从官方给出的测评结果看,Qwen1.5系列大模型相比较第一代有非常明显的进步,其中720亿参数规模版本的Qwen1.5-72B-Chat在各项评测结果中都非常接近GPT-4的模型,在MT-Bench的得分中甚至超过了此前最为神秘但最接近GPT-4水平的Mistral-Medium模型。

  • Qwen2大语言模型简介
  • Qwen1.5大语言模型的评测结果
  • Qwen1.5的综合评分
  • Qwen1.5与第一代Qwen大模型对比
  • Qwen1.5在小规模参数的评测
  • Qwen1.5在MT-Bench的得分
  • Qwen1.5大语言模型的实测结果
  • Qwen2系列模型开源地址

Qwen2大语言模型简介

此次阿里巴巴开源的Qwen2系列大模型包含6个不同参数规模的版本,分别是5亿、18亿、40亿、70亿、140亿和720亿。相比较第一代,增加了5亿规模版本和40亿参数规模版本。

Qwen1.5模型版本Qwen1.5模型信息卡地址
Qwen1.5-0.5B-Chathttps://www.datalearner.com/ai-models/pretrained-models/Qwen1_5-0_5B-Chat
Qwen1.5-1.8B-Chathttps://www.datalearner.com/ai-models/pretrained-models/Qwen1_5-1_8B-Chat
Qwen1.5-4B-Chathttps://www.datalearner.com/ai-models/pretrained-models/Qwen1_5-4B-Chat
Qwen1.5-7B-Chathttps://www.datalearner.com/ai-models/pretrained-models/Qwen1_5-7B-Chat
Qwen1.5-14B-Chathttps://www.datalearner.com/ai-models/pretrained-models/Qwen1_5-14B-Chat
Qwen1.5-72B-Chathttps://www.datalearner.com/ai-models/pretrained-models/Qwen1_5-72B-Chat

而这6个不同参数规模版本的模型,每一个都开源了基础预训练版本、聊天优化版本、Int4量化、Int8量化以及AWQ版本,所以相当于每一个参数规模的模型都有5个版本,因此一共发布了30个版本的模型!

在此前的各种泄露的信息中,官方都称这些模型为Qwen2-beta版本,可能是考虑到升级,本次发布的时候所有的Qwen2名称改为了Qwen1.5。

Qwen1.5系列模型的特点总结如下:

  • 有6个不同参数模型版本(0.5B, 1.8B, 4B, 7B, 14B 和 72B),最小的仅5亿参数,最大的有720亿参数;
  • 聊天优化版本的模型相比较第一代模型有明显的进步,其中720亿参数的Qwen1.5-72B在MT-Bench得分仅次于GPT-4;
  • 基座版本和聊天版本在多语言方面的能力得到增强,包括中英文在内,共支持12种语言(如日语、俄语、法语西班牙语等);
  • 所有版本模型最高支持32K的长上下文输入;
  • 支持系统提示,可以完成Roleplay;
  • 生态完善,发布即支持vLLM、SGLang等推理加速框架;
  • 支持不同的量化框架;
  • 月活1亿以下直接商用授权,月活1亿以上商用需要获取授权;

Qwen1.5大语言模型的评测结果

Qwen1.5的综合评分

官方公布了Qwen1.5系列模型在不同评测结果上的得分情况。如下图所示:

ModelMMLUC-EvalGSM8KMATHHumanEvalMBPPBBHCMMLU
GPT-486.469.992.045.867.061.886.771.0
Llama2-7B46.832.516.73.312.820.838.231.8
Llama2-13B55.041.429.65.018.930.345.638.4
Llama2-34B62.6-42.26.222.633.044.1-
Llama2-70B69.850.154.410.623.737.758.453.6
Mistral-7B64.147.447.511.327.438.656.744.7
Mixtral-8x7B70.6-74.428.440.260.7--
Qwen1.5-7B61.074.162.520.336.037.440.273.1
Qwen1.5-14B67.678.770.129.237.844.053.777.6
Qwen1.5-72B77.584.179.534.141.553.465.583.5

从这个评测结果看,Qwen1.5模型十分有竞争力,就英文理解和通识能力(MMLU)来说,Qwen1.5-72B版本几乎各项得分都超过了Llama2系列以及此前大火的MoE模型Mixtral-8x7B。

在DataLearnerAI的模型评测数据收集上,Qwen1.5-72B的表现也是全球靠前的结果:

Qwen1.5-72B模型评测表现
Qwen1.5-72B模型评测表现
数据来源:https://www.datalearner.com/ai-models/llm-evaluation
Qwen1.5与第一代Qwen大模型对比

不过,如果我们把Qwen1.5系列模型与第一代相比会发现72B模型的提升并不高,如下表所示:

ModelMMLUC-EvalGSM8KMATHHumanEvalMBPPBBHCMMLU
Qwen1.5-7B61.074.162.520.336.037.440.273.1
Qwen-7B58.263.551.711.629.931.645.062.2
Qwen1.5-14B67.678.770.129.237.844.053.777.6
Qwen-14B66.372.161.324.832.340.853.471.0
Qwen1.5-72B77.584.179.534.141.553.465.583.5
Qwen-72B77.483.378.935.235.452.267.783.6

可以看到Qwen1.5-72B模型只有在HumanEval评分有接近20%的提升,其他方面提升很微弱。

Qwen1.5在小规模参数的评测

官方还公布了小规模版本的模型对比,如下表所示:

ModelNon-Emb ParamsMMLUC-EvalGSM8KMATHHumanEvalMBPPBBHCMMLU
Tinyllama-1.1B1.1B24.325.02.30.76.719.928.824.0
Gemini-Nano-3B---22.8--27.242.4-
StableLM-Zephyr-3B2.7B45.930.352.512.535.431.937.730.9
Phi-22.5B52.723.457.23.547.655.043.424.2
MiniCPM-2B2.4B53.551.153.810.250.047.336.951.1
Qwen1.5-0.5B0.3B39.250.522.03.112.26.818.346.6
Qwen1.5-1.8B1.2B46.859.738.410.120.118.024.257.8
Qwen1.5-4B3.1B56.167.657.010.025.629.232.566.7

这些模型都是40亿以下的模型,除了Qwen1.5-4B外,其它模型多数都在30亿以下。这个结果看,40亿参数规模的Qwen1.5-4B最强,但是它的参数规模也是高了不少。这里也可以看到MiniCPM-2B模型的强大(关于MiniCPM-2B模型介绍参考:https://www.datalearner.com/ai-models/pretrained-models/MiniCPM-2B-SFT )。

Qwen1.5在MT-Bench的得分

除了上述常规的评测外,Qwen1.5最亮眼的是Qwen1.5-72B在MT-Bench的表现。MT-Bench是UC伯克利联合其它研究机构发布的一个大模型指令遵从偏好的评估方法。与前面的评估方法不同的是,前面常规的评估方法大多数是选择题,而这个评估方法则是利用大模型与人类偏好一致的方式,对模型输出的结果仅需对比打分,很多时候更加接近人类的偏好。

|Models|MT-Bench|AlpacaEval 2.0|AlpacaEval 2.0|| |:----|:----|:----| ||Avg. Score|Win Rate|Length| |Qwen1.5-72B-Chat|8.61 (8.67/8.61/8.56)|27.18|1600| |Qwen1.5-14B-Chat|7.91 (7.99/7.99/7.77)|19.7|1608| |Qwen1.5-7B-Chat|7.60 (7.58/7.55/7.66)|13.20|1606|

该得分结果显示Qwen1.5-72B模型的MT-Bench得分8.61,是仅次于GPT-4模型的得分结果。

Qwen1.5大语言模型的实测结果

我们在Qwen1.5-72B模型做了一些测试,结果如下:

这几个问题回答得实在是有点不太好,不过,这些问题本身也很有难度,GPT-4的回答效果也一般。

下图是一个常规的json提取,效果还可以:

大家目前可以在线测试:https://huggingface.co/spaces/Qwen/Qwen1.5-72B-Chat

Qwen2系列模型开源地址

Qwen2系列模型的是自定义开源协议,如果你的月活不超过1亿,可以直接使用他们的开源模型商用。月活超过1亿则需要申请授权。具体的模型情况和演示地址参考DataLearnerAI模型信息卡:

Qwen1.5模型版本Qwen1.5模型信息卡地址
Qwen1.5-0.5B-Chathttps://www.datalearner.com/ai-models/pretrained-models/Qwen1_5-0_5B-Chat
Qwen1.5-1.8B-Chathttps://www.datalearner.com/ai-models/pretrained-models/Qwen1_5-1_8B-Chat
Qwen1.5-4B-Chathttps://www.datalearner.com/ai-models/pretrained-models/Qwen1_5-4B-Chat
Qwen1.5-7B-Chathttps://www.datalearner.com/ai-models/pretrained-models/Qwen1_5-7B-Chat
Qwen1.5-14B-Chathttps://www.datalearner.com/ai-models/pretrained-models/Qwen1_5-14B-Chat
Qwen1.5-72B-Chathttps://www.datalearner.com/ai-models/pretrained-models/Qwen1_5-72B-Chat

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

相关博客

  • 阿里发布第二代图像大模型:Qwen-Image-2.0,融合文本生成图片、图片编辑为一体全球目前排名第三!中文渲染很棒!但不开源~
  • 阿里通义千问团队首次开源语音合成大模型:Qwen3-TTS:总共5个模型,最小的仅0.6B参数规模,最大1.8B参数
  • Qwen Code介绍和使用:阿里开源的命令行AI编程助手,免费开源,支持最高100万的上下文!
  • 为什么Qwen3系列模型中没有720亿参数规模的Qwen3-72B?Qwen3-72B还会发布吗?NO!
  • 向量大模型新选择,阿里开源向量大模型Qwen-Embedding和重排序大模型Qwen-Reranker,开源向量检索能力第一名!完全免费开源。
  • 阿里开源最新Qwen-14B:英文理解能力接近LLaMA2-70B,数学推理能力超过GPT-3.5!
  • Qwen1.5系列再次更新:阿里巴巴开源320亿参数Qwen1.5-32B模型,评测结果超过Mixtral 8×7B MoE,性价比更高!
  • 阿里巴巴开源第二代大语言模型Qwen2系列,最高参数规模700亿,评测结果位列开源模型第一,超过了Meta开源的Llama3-70B!

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署