Qwen-14B-Chat - Qwen-14B-Chat

模型详细情况和参数

Qwen-14B-Chat

模型全称
Qwen-14B-Chat
模型简称
Qwen-14B-Chat
模型类型
聊天大模型
发布日期
2023-09-24
预训练文件大小
28.32GB
是否支持中文(中文优化)
最高支持的上下文长度
8K
模型参数数量(亿)
140.0
模型代码开源协议
Tongyi Qianwen LICENSE AGREEMENT
预训练结果开源商用情况
Tongyi Qianwen LICENSE AGREEMENT - 免费商用授权
模型GitHub链接
https://github.com/QwenLM/Qwen
在线演示地址
暂无
DataLearnerAI的模型介绍
官方博客论文
暂无
基础模型
无基础模型
发布机构

Qwen-14B-Chat 简介

在Qwen-14B的基础上,阿里巴巴使用对齐机制打造了基于大语言模型的AI助手Qwen-14B-Chat。相较于最初开源的Qwen-14B模型,14B版本现已将预训练模型和Chat模型更新到效果更优的版本。


通义千问是阿里巴巴推出的一个大语言模型,此前开源的Qwen-7B引起了广泛的关注,因为他的理解能力很强但是参数规模很小,因此受到了很多人的欢迎。而目前再次开源全新的Qwen-14B的模型,参数规模142亿,但是它的理解能力接近700亿参数规模的LLaMA2-70B,数学推理能力超过GPT-3.5。

Qwen-14B模型介绍Qwen-14B模型的训练细节Qwen-14B模型对长上下文的支持Qwen-14B模型的评测结果Qwen-14B的模型开源情况和相关资源

Qwen-14B模型介绍

Qwen-14B是基于Transformer的大型语言模型,按照官方的介绍,Qwen-14B在超过3万亿tokens上训练,数据集包含高质量中、英、多语言、代码、数学等数据,涵盖通用及专业领域的训练语料。而此前的Qwen-7B模型实在2.4万亿tokens上训练。因此,不仅参数规模翻了一倍,其训练数据也增长了25%。

训练数据不同语言占比如下:

参数规模和训练数据的增长也让Qwen-14B的效果大幅增加,在MMLU的评测结果上得分66.3,接近700亿参数规模的LLaMA2-70B,引起了非常多的关注。

Qwen-14B模型的训练细节

Qwen-14B使用了超过3万亿tokens的数据进行预训练,这些数据包括高质量的中文、英文、多语言、代码、数学等信息,覆盖了广泛的领域。通过大量对比实验,预训练数据的分布得到了优化,确保了模型的高质量训练。

模型的架构也非常出色,包括了40层的Transformer编码器,每层有40个注意力头,以及一个5120维的模型维度。

模型的词汇表大小达到了151,851,而序列长度可达2048。这个词汇表可以说是超过了很多模型。大模型的词汇表是指在自然语言处理(NLP)中使用的模型所能理解和处理的所有单词、子词或标记的集合。词汇表的大小通常是衡量一个NLP模型规模的重要指标之一。

目前常见的模型词汇表大小如下:

模型名称词汇表大小
Qwen-14B15.19万
Baichuan6.4万
Baichuan212.57万
ChatGLM26.48万
LLaMA23.2万

可以看到,但从词汇表看,Qwen-14B也是目前最多的模型之一。

在实现方式方面,Qwen-14B采用了流行的技术,如RoPE相对位置编码、SwiGLU激活函数和RMSNorm,这些技术的应用使得模型在各种任务上表现出色。

以下是通义千问-14B(Qwen-14B)模型的详细信息:

Qwen-14B 特点描述
参数规模140亿参数
模型类型Transformer
训练数据超过3万亿tokens的多样化数据,包括中文、英文、多语言、代码、数学等
架构细节40层编码器,每层40个注意力头,5120维模型维度
词汇表大小151,851
最大序列长度2048
位置编码方式RoPE相对位置编码
激活函数SwiGLU激活函数
归一化方式RMSNorm
词汇表约15万大小的词汇表,支持多语言和数字分词
部分语种编码压缩率实现了较高的压缩率,包括泰语、希伯来语、阿拉伯语、韩语等
预训练数据超过3T tokens的高质量全网语料,包括全网文本、百科、书籍、代码等
支持的Python版本3.8及以上版本
推荐的PyTorch版本1.12及以上版本,推荐2.0及以上版本
推荐的CUDA版本11.4及以上版本(适用于GPU用户和flash-attention用户等)

Qwen-14B模型对长上下文的支持

Qwen-14B的强大之处不仅在于其参数规模和训练数据的广泛性,还在于其对长上下文的支持。引入NTK插值,LogN注意力缩放,窗口注意力等技巧,将Qwen-14B模型的上下文长度从2K扩展到8K以上。

这意味着模型能够理解和处理更长的文本片段,这对于复杂的自然语言处理任务非常重要。

Qwen-14B模型的评测结果

最终,我们来看一下Qwen-14B在各种评测任务上的表现。这个模型在多个中英文下游评测任务上都表现出色,包括常识推理、代码理解、数学问题求解、翻译等。事实上,它的性能不仅超越了相近规模的开源模型,甚至在某些指标上也与更大尺寸的模型竞争激烈。在MMLU的评测上,Qwen-14B的得分66.3,远超Baichuan2-13B-Base的59.17分,接近700亿参数规模的LLaMA2-70B的68.9分,而在GSM8K的数学推理上,Qwen-14B的得分61.3分,超过了GPT-3.5的57.1分。

下图是DataLeaner大模型评测中Qwen-14B和其它模型的评测对比结果:

Qwen-14B的评测结果参考DataLeanrer大模型评测:https://www.datalearner.com/ai-models/llm-evaluation

在代码评估上,HumanEval的得分32.3,比CodeLLaMA-7B的33.5略低,但是超过了LLaMA2-70B的30.5分,也就是说,作为语言模型,Qwen-14B代码表现尚可,但是与专门的代码模型相比则不太行。Qwen-14B的代码数据参考:https://www.datalearner.com/ai-models/llm-coding-evaluation

Qwen-14B的模型开源情况和相关资源

Qwen-14B模型开源了2个版本,一个是Qwen-14B的基础大模型,一个是Qwen-14B-Chat版本的对话调优版本。后者可以更好适应对话任务。

Qwen-14B两个版本模型均上架了DataLearner模型卡:

模型名称DataLearner模型信息卡地址
Qwen-14Bhttps://www.datalearner.com/ai-models/pretrained-models/Qwen-14B
Qwen-14B-Chathttps://www.datalearner.com/ai-models/pretrained-models/Qwen-14B-Chat

需要注意的是,Qwen-14B模型开源协议是自定义开源协议,对学术研究完全开放,而商用需要申请授权,不过也是免费授权商用~

欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

Qwen-14B-Chat所属的领域
自然语言处理

自然语言处理

Natural Language Process

35个资源

Qwen-14B-Chat相关的任务
问答系统

问答系统

Question Answering

35个资源