YAYI2-30B - YAYI2-30B

模型详细情况和参数

YAYI2-30B

模型全称
YAYI2-30B
模型简称
YAYI2-30B
模型类型
基础大模型
发布日期
2023-12-22
预训练文件大小
60GB
是否支持中文(中文优化)
最高支持的上下文长度
4K
模型参数数量(亿)
300.0
模型代码开源协议
Apache 2.0
预训练结果开源商用情况
雅意 YAYI 2 模型社区许可协议 - 收费商用授权
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
无基础模型
发布机构

YAYI2-30B 简介

中科闻歌开源了一个大语言模型YAYI2-30B,这是中科闻歌从头开始训练的一个大语言模型,参数规模300亿,基于2.65万亿tokens数据集预训练得到。中科闻歌是中科院自动化所孵化的一家人工智能企业。这个模型最大的特点是MMLU评测上得分80.5分,超过了Google Gemini Pro,并且是目前全球第三个在MMLU得分超过80分的预训练大模型,前面两个是Google的Gemini Ultra和GPT-4。


YAYI2-30B模型架构和训练细节

YAYI2-30B模型是一个基于transformer架构的decoder-only的模型,是中科闻歌基于自己收集的数据集从头开始训练得到的大语言模型,上下文长度为4K。


YAYI2-30B的原始预训练数据集来自240TB的文本数据,包括新闻、书籍、维基百科、代码等,其中41.5%是中文数据。


YAYI2-30B模型本身采用了许多技术来加速训练,提高主权虐心,包括FlashAttention 2、MQA(multi-query attention)等。YAYI2-30B还有一个经过有监督微调对齐的聊天大模型YAYI-30B-Chat,目前暂未开源。


YAYI2-30B模型的训练数据集

YAYI2-30B的预训练数据集可以概括为三类:

互联网数据集:包括社交媒体、开源数据集,占比49.6%;

精选一般数据集:包括不同的书本、代码、百科、学术论文等,占比19%;

领域数据集:财经、媒体、中药等,占比31.4%;


如下图所示:


原始数据240TB,经过清洗之后得到10.6TB高质量预训练数据集,其中中文比例41.5%,英文数据集比例40.4%,其余还包括俄语、德语、西班牙语等多种语言。这意味着这个模型可以很容易扩展不同的语言支持。对多语言支持比较不错。


如下图示:


YAYI2-30B的词汇表大小为81920,也是目前开源模型中数量较多的词汇表了。



此外,中科闻歌还开源了其中500GB的高质量预训练数据集,采用Apache2.0开源协议,开源地址: https://huggingface.co/datasets/wenge-research/yayi2_pretrain_data 


YAYI-30B的评测效果

YAYI2-30B模型各项评测结果中都取得了非常优秀的成绩,特别是在MMLU评测任务上,取得了80.5分,而这个得分不仅超过了ChatGPT-3.5,也超过了最近谷歌发布的Gemini Pro模型。是目前已知的预训练模型中得分第三的模型(第一是Gemini-Ultra,第二名是GPT-4)。

要知道,前两个模型虽然没有公布具体的参数情况,但是根据以往公布的信息应该都是超过了1750亿。而YAYI-30B模型仅仅有300亿。这个参数得分这么高也是非常令人惊叹的。


数据来源: https://www.datalearner.com/ai-models/llm-evaluation 


而数学推理评测GSM8K上得分71.2,还可以。代码评测结果表现也不错,HumanEval评测得分53.1,虽然不如很多代码专用的大模型,但是就一个预训练模型来说,表现还可以。


YAYI-30B的开源

YAYI-30B目前代码采用Apache2.0开源协议,模型预训练结果有2个开源协议,对于社区非商业使用可以不申请授权直接使用,而商业使用需要申请授权,授权协议未明确说是否收费。但由于中科闻歌本身有商业化产品,大概率还是收费商用授权。


YAYI-30B实际测试

为了对比YAYI-30B的模型​能力,我们做了一组有意思的信息抽取测试,要测试抽取的数据如下:


YAYI-30B的返回结果:


​10美元重复了,其它还行吧。但是我觉得ChatGLM似乎更好:





欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

YAYI2-30B所属的领域
自然语言处理

自然语言处理

Natural Language Process

35个资源

YAYI2-30B相关的任务
问答系统

问答系统

Question Answering

35个资源