中科闻歌开源了一个大语言模型YAYI2-30B，这是中科闻歌从头开始训练的一个大语言模型，参数规模300亿，基于2.65万亿tokens数据集预训练得到。中科闻歌是中科院自动化所孵化的一家人工智能企业。这个模型最大的特点是MMLU评测上得分80.5分，超过了Google Gemini Pro，并且是目前全球第三个在MMLU得分超过80分的预训练大模型，前面两个是Google的Gemini Ultra和GPT-4。

YAYI2-30B模型架构和训练细节

YAYI2-30B模型是一个基于transformer架构的decoder-only的模型，是中科闻歌基于自己收集的数据集从头开始训练得到的大语言模型，上下文长度为4K。

YAYI2-30B的原始预训练数据集来自240TB的文本数据，包括新闻、书籍、维基百科、代码等，其中41.5%是中文数据。

YAYI2-30B模型本身采用了许多技术来加速训练，提高主权虐心，包括FlashAttention 2、MQA（multi-query attention）等。YAYI2-30B还有一个经过有监督微调对齐的聊天大模型YAYI-30B-Chat，目前暂未开源。

YAYI2-30B模型的训练数据集

YAYI2-30B的预训练数据集可以概括为三类：

互联网数据集：包括社交媒体、开源数据集，占比49.6%；

精选一般数据集：包括不同的书本、代码、百科、学术论文等，占比19%；

领域数据集：财经、媒体、中药等，占比31.4%；

如下图所示：

原始数据240TB，经过清洗之后得到10.6TB高质量预训练数据集，其中中文比例41.5%，英文数据集比例40.4%，其余还包括俄语、德语、西班牙语等多种语言。这意味着这个模型可以很容易扩展不同的语言支持。对多语言支持比较不错。

如下图示：

YAYI2-30B的词汇表大小为81920，也是目前开源模型中数量较多的词汇表了。

此外，中科闻歌还开源了其中500GB的高质量预训练数据集，采用Apache2.0开源协议，开源地址： https://huggingface.co/datasets/wenge-research/yayi2_pretrain_data

YAYI-30B的评测效果

YAYI2-30B模型各项评测结果中都取得了非常优秀的成绩，特别是在MMLU评测任务上，取得了80.5分，而这个得分不仅超过了ChatGPT-3.5，也超过了最近谷歌发布的Gemini Pro模型。是目前已知的预训练模型中得分第三的模型（第一是Gemini-Ultra，第二名是GPT-4）。

要知道，前两个模型虽然没有公布具体的参数情况，但是根据以往公布的信息应该都是超过了1750亿。而YAYI-30B模型仅仅有300亿。这个参数得分这么高也是非常令人惊叹的。

数据来源： https://www.datalearner.com/ai-models/llm-evaluation

而数学推理评测GSM8K上得分71.2，还可以。代码评测结果表现也不错，HumanEval评测得分53.1，虽然不如很多代码专用的大模型，但是就一个预训练模型来说，表现还可以。

YAYI-30B的开源

YAYI-30B目前代码采用Apache2.0开源协议，模型预训练结果有2个开源协议，对于社区非商业使用可以不申请授权直接使用，而商业使用需要申请授权，授权协议未明确说是否收费。但由于中科闻歌本身有商业化产品，大概率还是收费商用授权。

YAYI-30B实际测试

为了对比YAYI-30B的模型能力，我们做了一组有意思的信息抽取测试，要测试抽取的数据如下：

YAYI-30B的返回结果：

10美元重复了，其它还行吧。但是我觉得ChatGLM似乎更好：

YAYI2-30B

模型基本信息

是否支持推理过程

最高上下文输入长度

最长输出结果

模型类型

发布时间

模型预文件大小

开源和体验地址

代码开源状态

预训练权重开源

GitHub 源码

Hugging Face

在线体验

官方介绍与博客

官方论文

DataLearnerAI博客

API接口信息

接口速度（满分5分）

接口价格

输入价格:

输出价格:

输入支持的模态

文本

图片

视频

音频

Embedding（向量）

输出支持的模态

文本

图片

视频

音频

Embedding（向量）

YAYI2-30B模型在各大评测榜单的评分

发布机构

模型介绍

YAYI2-30B模型架构和训练细节

YAYI2-30B模型的训练数据集

YAYI-30B的评测效果

YAYI-30B的开源

YAYI-30B实际测试

关注DataLearnerAI公众号