Au

AudioGPT

基础大模型

AudioGPT

发布时间: 2023-04-25

GitHub Hugging Face 在线体验

模型参数（Parameters）

未披露

最高上下文长度（Context Length）

2K

是否支持中文

不支持

推理能力（Reasoning）

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

2K tokens

最长输出结果

暂无数据

模型类型

基础大模型

发布时间

2023-04-25

模型预文件大小

暂无数据

开源和体验地址

代码开源状态

预训练权重开源

-

GitHub 源码

https://github.com/AIGC-Audio/AudioGPT

Hugging Face

暂无开源HuggingFace地址

在线体验

暂无在线体验地址

官方介绍与博客

官方论文

AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head

DataLearnerAI博客

暂无介绍博客

API接口信息

接口速度（满分5分）

暂无数据

接口价格

输入价格:

文本: 暂无数据
图片: 暂无数据
音频: 暂无数据
视频: 暂无数据
Embedding: 暂无数据

输出价格:

文本: 暂无数据
图片: 暂无数据
音频: 暂无数据
视频: 暂无数据
Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding（向量）

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding（向量）

输出不支持

AudioGPT模型在各大评测榜单的评分

评测基准名称 / 模式

评测类型

评测结果

发布机构

浙江大学

查看发布机构详情

模型介绍

AudioGPT是浙江大学、北京大学、CMU和中国人民大学多家研究机构联合推出的一个多模态AI系统。

尽管大模型在文本处理和生成方面取得了成功的应用，但在音频、声音等领域表现不好，主要原因：

数据：获取人工标注的语音数据是一项昂贵且耗时的任务，而提供实际口语对话的资源非常有限。此外，与网络文本数据的广泛语料库相比，语音数据量有限，多语种会话语音数据更为稀缺；
计算资源：从头开始训练多模态LLM计算上密集且耗时。考虑到已经存在能够理解和生成语音、音乐、声音和人头像的音频基础模型，从头开始训练将是浪费的。

AudioGPT是一个旨在在口语对话中优秀理解和生成音频模态的系统。具体而言，

AudioGPT利用各种音频基础模型处理复杂音频信息，而LLM（即ChatGPT）被视为通用接口，这使得AudioGPT能够解决众多音频理解和生成任务；
AudioGPT不是训练口语语言模型，而是将LLM与输入/输出接口（ASR、TTS）连接以进行语音对话；

如上图所示，AudioGPT的整个过程可以分为四个阶段：

模态转换。使用输入/输出接口进行语音和文本之间的模态转换，弥合口语LLM和ChatGPT之间的差距。
任务分析。利用对话引擎和提示管理器帮助ChatGPT理解用户的意图以处理音频信息。
模型分配。接收有关语调、音色和语言控制的结构化参数，ChatGPT为理解和生成分配音频基础模型。
响应生成。在执行音频基础模型后生成并返回给用户最终的响应。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号，接受最新大模型资讯

DataLearnerAI WeChat