语音模型的GPT时刻:MetaAI发布的基础语音大模型Voicebox简介及其模型说明

标签:#生成式模型##语音模型##音频大模型# 时间:2023/06/17 21:27:04 作者:小木

大规模生成式AI模型在自然语言处理领域和计算机视觉领域已经诞生了类似GPT、Stable Diffusion这样的基础大模型,极大地推动了相关领域的AI进展。但是,在语音处理领域,目前还没有这样的模型可以像GPT那样用一个基础模型解决一系列的语音处理任务。


今天,MetaAI发布了一个新的语音处理领域的生成式大模型Voicebox,可以像GPT那样用生成式的方式处理语音(speech)数据的相关任务,包括语音编辑、跨风格语音生成等语音数据处理相关的很多任务。这可能就是语音处理领域的GPT时刻!

Voicebox在DataLearner上模型信息卡地址:https://www.datalearner.com/ai/pretrained-models/Voicebox

看完这个模型,我就一个感觉,这个Voicebox是影视公司的福音,骗子的狂欢,普通大众的祸福难料啊!


[TOC]

为什么语音处理领域缺少大模型?

在自然语言处理和计算机视觉领域已经有很多超大规模的模型在超大规模数据集上做了训练。例如,MetaAI之前开源的著名的羊驼LLaMA系列模型最大规模参数650亿,模型在超过1万亿tokens的数据集上训练。其预训练结果完全载入并进行推理就需要300GB左右的显存。

但是,在语音处理领域,目前还是缺少一个类似的超大规模的模型在超大规模的数据集上进行训练。

在Voicebox之前,大多数语音类的模型都只在几十到几千小时的语音数据集上训练。大多数模型仅仅考虑使用进行挑选的干净的数据集进行训练。例如,此前著名的VCTK数据集,仅仅包含100个speakers的录音结果,其语音风格也极其有限。因此,在这样的数据集上训练的语音模型很难有丰富的感情、风格、口音和噪音等信息。在与这些因素相关的语音合成和生成方面也都表现很差。这些模型更多擅长在语音数据集相关风格上的任务上。

而ChatGPT这样的模型已经可以做出很多模型在数据集上没有见过的任务了,这些few-shot和zero-shot任务表现也是让大家惊叹大语言模型能力的最主要的因素之一。

需要注意的是,大家并不是缺少类似LLM领域的大规模数据集。在语音数据集上,CommonVoice已经包含超过2万个小时的数据。只是这些数据集的质量相比较精心挑选的数据集而言,质量有所下降。

此前缺少的是像GPT这样的大规模语音生成模型。LLM能发展到现在的规模,也是在超大规模的真实数据集上进行生成式的训练才能达到如今的效果。依赖的也是在大规模无标注文本数据集上训练才能发展到如今的效果。

而语音数据相比较文本数据泛化难度更高,其中声学的变化以及人和人之间的差异都让语音模型发展更加困难。而且语音数据所需要的处理资源更高。

今天MetaAI发布的Voicebox则是在语音数据集上进行大规模训练的一种尝试。该模型也不是传统LLM的自回归模型,是一种新的生成式模型。

Voicebox模型简介

Voicebox的目的也是建立一个类似LLM的训练机制,创建一个生成式的模型。

与LLM不同的是,Voicebox使用的是语音和对应文本记录数据。它的训练目标是根据音频周围的数据和相关的文本记录数据来预测目标音频。这也可以当作是一种情景学习,其中语音的风格是来自于音频情景和文本内容。

Voicebox不需要任何音频的风格标注数据(包括录制人的信息、感情、噪音等),对音频数据要求很低,这些音频数据更加容易获得。因此可以很容易在更大规模数据集上训练。

Voicebox本身不是一个自回归模型,而是一个连续正规化流模型(continuous normalizing flow,CNF)。有点像CV领域的扩散模型。它的目的是对一种转化方式进行建模。这个转化方式的目的是可以将一个简单的分布转换成复杂的数据分布。


上图是Voicebox的模型示意图。

Voicebox在6万小时的英语音频和5万小时多语音音频数据上训练。支持英语、法语、西班牙语、德语、波兰语和葡萄牙语。

Voicebox的特点和能力

根据官方的描述,Voicebox是一种音频处理的突破性方式。它通过学习解决类似大语言模型的训练方法,实现了音频领域的大规模训练,可以通过情景学习的方式来完成没有训练过的任务。

Voicebox的效果超过了此前的所有模型。在zero-shot的英文语音合成任务上,已经将此前的单词错误率从5.9%下降到1.9%(此前英文领域的zero-shot的TTS表现最好的应该是VALL·E)。

Voicebox也是第一个可以完成高质量跨语言的zero-shot的语音合成模型,它不需要对语音数据集进行风格、录制者相关的标注即可完成相关的训练。大大降低了训练模型对于语音数据集的质量要求。

Voicebox在如下任务中表现很好:

zero-shot的语音合成任务(对齐并保留语音风格)

即给定一段文本和转录参考语音,直接生成此前没有训练过的语音风格的音频结果。


上图就是一个案例,给出这个文本,还有一个3秒的语音风格,它就可以基于这段文本生成一段音频,其声音、背景噪音和语速等都是与这3秒的转录音频类似,但是可以完全生成这段文本对应的结果!效果很好!

噪音去除

如果你有一段音频,但是里面包含狗叫或者关门声音,那么Voicebox也可以帮你去除。


上图的案例是你有一段16秒音频,是左侧文本内容。但是阴影部分的文本有狗叫的背景,很难听清楚,那么你给模型这段16秒的音频,把其中有狗叫的部分静音掉。Voicebox就可以把这部分的音频补充进来,但是完全去掉狗叫声的噪音。

音频内容编辑

这个案例是指如果录音的内容有错,那么可以不用录制者重新录制既可以将部分内容换成需要的音频结果,但是你听不出来这中间有编辑过。


上图的左侧是原录音和源文本,阴影部分是想要重新录制的内容,可以用voicebox直接替换。但是音频结果非常丝滑。

这个。。。不就是如果某位演员出问题了,或者台词出问题了,重新配音就可以用这个模型来了,完全听不出来是后期补录的结果啊!

官方还有很多案例,大家可以亲自体验:https://voicebox.metademolab.com/

Voicebox模型的开源和风险

相信此时大部分人都知道,这个模型的能力虽然很好,但是也很可怕。如果模型不被控制,在诈骗、造谣等方面完全就无法控制。因此MetaAI虽然发布了论文,但是没有开源代码和预训练结果。但是为了不影响开源共享,MetaAI在论文里面详细描述了Voicebox模型。

但是,根据开源的速度,应该很快会有社区版本发布。而基于开源数据的训练结果很可能也会发布。这虽然令人期待,但是也不免让大家担心会出现很多问题!

论文中,MetaAI也描述了如何区分是Voicebox生成的音频还是真实音频,想必也是担心它的影响。

个人感觉,这个模型的确很危险啊。

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
相关博客