Au

AudioGPT

基础大模型

AudioGPT

发布时间: 2023-04-25

模型参数(Parameters)
未披露
最高上下文长度(Context Length)
2K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

2K tokens

最长输出结果
暂无数据
模型类型

基础大模型

发布时间

2023-04-25

模型预文件大小
暂无数据

开源和体验地址

代码开源状态
预训练权重开源
-
GitHub 源码
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

API接口信息

接口速度(满分5分)
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

AudioGPT模型在各大评测榜单的评分

发布机构

模型介绍

AudioGPT是浙江大学、北京大学、CMU和中国人民大学多家研究机构联合推出的一个多模态AI系统。


尽管大模型在文本处理和生成方面取得了成功的应用,但在音频、声音等领域表现不好,主要原因:

  1. 数据:获取人工标注的语音数据是一项昂贵且耗时的任务,而提供实际口语对话的资源非常有限。此外,与网络文本数据的广泛语料库相比,语音数据量有限,多语种会话语音数据更为稀缺;
  2. 计算资源:从头开始训练多模态LLM计算上密集且耗时。考虑到已经存在能够理解和生成语音、音乐、声音和人头像的音频基础模型,从头开始训练将是浪费的。


AudioGPT是一个旨在在口语对话中优秀理解和生成音频模态的系统。具体而言,

  • AudioGPT利用各种音频基础模型处理复杂音频信息,而LLM(即ChatGPT)被视为通用接口,这使得AudioGPT能够解决众多音频理解和生成任务;
  • AudioGPT不是训练口语语言模型,而是将LLM与输入/输出接口(ASR、TTS)连接以进行语音对话;




如上图所示,AudioGPT的整个过程可以分为四个阶段:


  1. 模态转换。使用输入/输出接口进行语音和文本之间的模态转换,弥合口语LLM和ChatGPT之间的差距。
  2. 任务分析。利用对话引擎和提示管理器帮助ChatGPT理解用户的意图以处理音频信息。
  3. 模型分配。接收有关语调、音色和语言控制的结构化参数,ChatGPT为理解和生成分配音频基础模型。
  4. 响应生成。在执行音频基础模型后生成并返回给用户最终的响应。


关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat