Aquila2-70B-Expr

Name: Aquila2-70B-Expr
Author: 北京智源人工智能研究院

基础大模型Aquila2

Aquila2-70B-Expr

发布时间: 2023-11-30更新于: 2023-12-03 22:29:16.757713

在线体验GitHub Hugging Face Compare

模型参数

700亿

上下文长度

中文支持

支持

推理能力

Aquila2-70B-Expr 是由北京智源人工智能研究院发布的 AI 模型，发布时间为 2023-11-30，定位为基础大模型，参数规模约为 700亿，上下文长度为 4K，模型文件大小约 140GB，采用 BAAI Aquila Model License Agreement 许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

Aquila2-70B-Expr

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

4K tokens

最大输出长度

暂无数据

模型类型

基础大模型

输入/输出模态

暂无数据

发布时间

2023-11-30

模型文件大小

140GB

MoE架构

否

总参数 / 激活参数

700亿 / 不涉及

知识截止

暂无数据

Aquila2-70B-Expr

开源和体验地址

代码开源状态

BAAI Aquila Model License Agreement

预训练权重开源

BAAI Aquila Model License Agreement- 免费商用授权

GitHub 源码

https://github.com/FlagAI-Open/Aquila2

Hugging Face

https://huggingface.co/BAAI/Aquila2-70B-Expr

在线体验

暂无在线体验地址

Aquila2-70B-Expr

官方介绍与博客

官方论文

打破异构算力束缚，FlagScale首次实现大模型的异构混合训练，开源70B模型实验版

DataLearnerAI博客

暂无介绍博客

Aquila2-70B-Expr

API接口信息

接口速度

暂无数据

暂无公开的 API 定价信息。

Aquila2-70B-Expr

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

Aquila2-70B-Expr

发布机构

北京智源人工智能研究院

查看发布机构详情

Aquila2-70B-Expr

模型解读

这是北京智源人工智能研究院开源的最新的700亿参数规模的大语言模型，是悟道·天鹰系列参数规模最大的模型。Aquila2-70B-Expr模型的Expr代表的是Experimental，表明这是一个实验性质的模型。而根据官方的介绍，这个模型的实验的主要是验证异构芯片上模型训练的性能和效果。

Aquila2-70B-Expr模型在1.2万亿tokens数据集上预训练得到，该模型在不同任务的评测结果如下：

评测基准	Aquila2-70B-Expr	Llama2-70B	Aquila2-34B v1.2
C-Eval (test)	66.8	—	59.3
CLUE	74.79	67.92	79.2
Gaokao2023 v2.0	58.06	44.86	53.92
C-SEM v1.0	76.14	67.2	85.15
MMLU	61.92	69.54	73.74

可以看到，这个模型本身的评测结果一般，甚至不如Aquila2-34B v1.2版本，原因官方解释是训练数据较少。而且它的预训练数据集中，英文数据量只有Llama2-70B的三分之一左右。但是，官方在实验中：

对Aquila2-70B-Expr进行以MMLU训练集进行增广的数据进行了一小段持续训练，Aquila2-70B-Expr能迅速在MMLU的总体评测上提升至80.7分

官方认为这意味着作为基座模型，Aquila2-70B-Expr模型非常优秀，可以在后续的使用中提供一个泛化能力强、学习能力强的基座模型。所以，直接在当前状态进行了开源。

另外，官方重点提到，这个模型是做异构训练实验验证的产物。在使用A100+A800异构英伟达GPU芯片集群、天数智能的天数BI-V100+BI-V150的异构集群上都做了训练对比，结果证明异构芯片的训练结果与纯粹的A100上或者是纯粹的天数BI-V100上训练效果差不多。

这也是这个模型生产过程中的一个重要共享，在异构硬件上训练的问题需要解决：

不同架构设备的软硬件栈不兼容，数值精度也可能存在差异；
不同架构设备之间很难高效通信；
不同设备算力和内存不同，很难进行负载均衡切分。

BAAI此次开源的Aquila2-70B-Expr其实就是FlagScale框架的新特性测试结果。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送