DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
页面导航
大模型列表YAYI2-30B
YA

YAYI2-30B

基础大模型YAYI2

YAYI2-30B

发布时间: 2023-12-22更新于: 2023-12-26 21:12:48.479648
在线体验GitHubHugging FaceCompare
模型参数
300亿
上下文长度
4K
中文支持
支持
推理能力

YAYI2-30B 是由 中科闻歌 发布的 AI 模型,发布时间为 2023-12-22,定位为 基础大模型,上下文长度为 4K,模型文件大小约 60GB,采用 雅意 YAYI 2 模型社区许可协议 许可。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

YAYI2-30B

模型基本信息

推理过程
不支持
思考模式
不支持思考模式
上下文长度
4K tokens
最大输出长度
暂无数据
模型类型
基础大模型
发布时间
2023-12-22
模型文件大小
60GB
MoE架构
否
总参数 / 激活参数
300亿 / 不涉及
知识截止
暂无数据
YAYI2-30B

开源和体验地址

代码开源状态
Apache 2.0
预训练权重开源
雅意 YAYI 2 模型社区许可协议- 收费商用授权
GitHub 源码
https://github.com/wenge-research/YAYI2
Hugging Face
https://huggingface.co/wenge-research/yayi2-30b
在线体验
暂无在线体验地址
YAYI2-30B

官方介绍与博客

官方论文
YAYI 2: Multilingual Open-Source Large Language Models
DataLearnerAI博客
暂无介绍博客
YAYI2-30B

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。
YAYI2-30B

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合?打开对比工具

YAYI2-30B

发布机构

中科闻歌
中科闻歌
查看发布机构详情
YAYI2-30B

模型解读

中科闻歌开源了一个大语言模型YAYI2-30B,这是中科闻歌从头开始训练的一个大语言模型,参数规模300亿,基于2.65万亿tokens数据集预训练得到。中科闻歌是中科院自动化所孵化的一家人工智能企业。这个模型最大的特点是MMLU评测上得分80.5分,超过了Google Gemini Pro,并且是目前全球第三个在MMLU得分超过80分的预训练大模型,前面两个是Google的Gemini Ultra和GPT-4。


YAYI2-30B模型架构和训练细节

YAYI2-30B模型是一个基于transformer架构的decoder-only的模型,是中科闻歌基于自己收集的数据集从头开始训练得到的大语言模型,上下文长度为4K。


YAYI2-30B的原始预训练数据集来自240TB的文本数据,包括新闻、书籍、维基百科、代码等,其中41.5%是中文数据。


YAYI2-30B模型本身采用了许多技术来加速训练,提高主权虐心,包括FlashAttention 2、MQA(multi-query attention)等。YAYI2-30B还有一个经过有监督微调对齐的聊天大模型YAYI-30B-Chat,目前暂未开源。


YAYI2-30B模型的训练数据集

YAYI2-30B的预训练数据集可以概括为三类:

互联网数据集:包括社交媒体、开源数据集,占比49.6%;

精选一般数据集:包括不同的书本、代码、百科、学术论文等,占比19%;

领域数据集:财经、媒体、中药等,占比31.4%;


如下图所示:


原始数据240TB,经过清洗之后得到10.6TB高质量预训练数据集,其中中文比例41.5%,英文数据集比例40.4%,其余还包括俄语、德语、西班牙语等多种语言。这意味着这个模型可以很容易扩展不同的语言支持。对多语言支持比较不错。


如下图示:


YAYI2-30B的词汇表大小为81920,也是目前开源模型中数量较多的词汇表了。



此外,中科闻歌还开源了其中500GB的高质量预训练数据集,采用Apache2.0开源协议,开源地址: https://huggingface.co/datasets/wenge-research/yayi2_pretrain_data 


YAYI-30B的评测效果

YAYI2-30B模型各项评测结果中都取得了非常优秀的成绩,特别是在MMLU评测任务上,取得了80.5分,而这个得分不仅超过了ChatGPT-3.5,也超过了最近谷歌发布的Gemini Pro模型。是目前已知的预训练模型中得分第三的模型(第一是Gemini-Ultra,第二名是GPT-4)。

要知道,前两个模型虽然没有公布具体的参数情况,但是根据以往公布的信息应该都是超过了1750亿。而YAYI-30B模型仅仅有300亿。这个参数得分这么高也是非常令人惊叹的。


数据来源: https://www.datalearner.com/ai-models/llm-evaluation 


而数学推理评测GSM8K上得分71.2,还可以。代码评测结果表现也不错,HumanEval评测得分53.1,虽然不如很多代码专用的大模型,但是就一个预训练模型来说,表现还可以。


YAYI-30B的开源

YAYI-30B目前代码采用Apache2.0开源协议,模型预训练结果有2个开源协议,对于社区非商业使用可以不申请授权直接使用,而商业使用需要申请授权,授权协议未明确说是否收费。但由于中科闻歌本身有商业化产品,大概率还是收费商用授权。


YAYI-30B实际测试

为了对比YAYI-30B的模型​能力,我们做了一组有意思的信息抽取测试,要测试抽取的数据如下:


YAYI-30B的返回结果:


​10美元重复了,其它还行吧。但是我觉得ChatGLM似乎更好:





DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码