智源人工智能研究院开源可商用的编程大模型:悟道·天鹰AquilaCode系列,超过清华大学CodeGeeX

标签:#Aquila##编程大模型# 时间:2023/07/24 12:59:32 作者:小木

Aquila-7B是北京人工智能研究院(BAAI)开源的一个可商用大语言模型。因为其良好的推理效果和友好的商用协议,使用的人较多。今天,BAAI再次开源2个基于Aquila-7B微调的编程大模型:AquilaCode-7B-multi和AquilaCode-7B-py。


DataLearner已经增加了这2个模型的信息卡:


AquilaCode-7B-multi模型信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/AquilaCode-7B-multi
AquilaCode-7B-py模型信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/AquilaCode-7B-py

至此,编程大模型再度扩张版图~https://www.datalearner.com/ai-models/pretrained-models?&aiArea=1002&language=-1&contextLength=-1&openSource=-1&publisher=-1

[TOC]

AquilaCode系列简介

AquilaCode系列目前包含2个版本:一个是多语言版本的AquilaCode-7B-multi模型,另一个是仅支持Python的AquilaCode-7B-py。二者均基于Aquila-7B模型微调得到(Aquila-7B模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/Aquila-7B )。

Aquila是北京智源人工智能研究院发布的一系列大模型名称。目前包括三个类型6个版本:分别是基础大模型系列、Chat微调系列和代码微调系列。Aquila-7B是其中规模最小的一个版本。

AquilaCode-7B-multi支持多种编程语言的高准确率生成,包括Python、C++、Java、Javascript和Go等。在HumanEval(Python)评测结果中,Pass@ 1、Pass@ 10、Pass@ 100分别为26/45.7/71.6,并在HumanEval-X多语言代码生成评测中显著领先于其他同参数等级的开源模型,接近LLaMA2的结果。

AquilaCode-py:这也是一个基础模型,它是一个“文本-代码”生成模型,基于Aquila-7B进行了继续预训练。AquilaCode-py专注于Python代码生成,使用经过高质量过滤且有合规开源许可的代码数据进行训练,数据量约为其他开源代码生成模型的10~40%。在HumanEval评测结果中,Pass@ 1、Pass@ 10、Pass@ 100分别为28.8 / 50.6 / 76.9。

AquilaCode训练细节

AquilaCode模型使用经过高质量过滤且有合规开源许可的代码数据进行训练。具体的数据集名称并未在提供的信息中明确指出。这些数据量约为其他开源代码生成模型的10~40%。因为其基础模型Aquila-7B的训练语料中有40%的中文数据集,所以这两个模型对中文的理解应该也是非常好。

这两个模型都是用A100训练的,目前还不清楚其它训练细节。

AquilaCode的评估结果

根据官方提供的评测结果,这两个模型都取得了非常好的代码生成效果。在HumanEval-X评测中超过主流开源模型,包括清华大学的CodeGeeX-13B。换句话说,超过了众多几百亿参数规模的大模型。

具体评测结果如下:


AquilaCode-7B-multi在多语言评测结果概览

具体的,AquilaCode-7B-multi具体评测数据如下:

HumanEval-X的Pass@1评测


HumanEval-X的Pass@10评测


HumanEval-X的Pass@100评测


可以看到,Aquila-7B-multi几乎是超过开源编程大模型的20%以上!十分值得期待。

此外,Aquila-7B-py在python的代码生成上能力更加强大,得分仅次于Salesforce的CodeGen2.5-7B-mono,排名第二。


AquilaCode的开源和使用方式

当前,AquilaCode的2个开源大模型的代码开源是基于FlagAI平台,采用Apache2.0开源协议,商用友好。而模型预训练结果的开源协议是它们自己提供的开源协议《智源Aquila系列模型许可协议》,但这也是可以免费商用的!

AquilaCode的使用目前支持3种方式,一个是自己下载部署之后调用代码生成代码,也可以在AquilaChat中通过对话生成。官方还提供了VSCode插件(VS Code AquilaCode),大家直接安装使用也可以。

AquilaCode-7B-multi模型信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/AquilaCode-7B-multi
AquilaCode-7B-py模型信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/AquilaCode-7B-py

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送