OpenAI首次发布语音合成大模型：VoiceEngine，一个可以用15秒原始录音就可以克隆声音的语音合成大模型

OpenAI发布的模型中最主要的是大语言模型GPT系列。而且GPT系列模型也在朝着多模态的方向发展。尽管OpenAI有自己的TTS和ASR大模型，但是此前从未正式宣布过。就在今天，OpenAI正式宣布了他们首个语音合成大模型VoiceEngine，该模型也将提供API访问。OpenAI官方的声明中说，现有的基于声音的认证系统应该被淘汰掉！因为已经不安全了！

Voice Engine简介

语音相关的技术大约可以分为2类，一种是识别语音即语音转文本（Auto-Speech—Recognition，ASR），另一种语音合成（Text-to-Speech，TTS）。在语音合成中，最近一个兴起的技术是语音克隆。语音克隆是语音合成技术的一个分支，它指的是使用人工智能和机器学习算法来模仿特定人的语音。这种技术可以生成与目标人声音非常相似的合成语音，包括其音调、节奏、语调和情感特征。语音克隆技术通常需要一段目标人的语音样本来训练模型，通过分析这些样本中的声音特征，机器学习模型能够学习如何产生相似的声音输出。

Voice Engine就是这样一个带语音克隆的语音合成模型。

首先从名字看这并不像是一个大模型的名字，更像是一个产品或者服务的名字。在前段时间，OpenAI已经被发现申请了VoiceEngine的商标（参考：新产品越来越近！OpenAI可能会推出全球最强个人助手Jarvis个人助理工具：OpenAI新商标Voice Engine透露出OpenAI正在做的事情！）。就在大家认为这个产品即将发布的时候，OpenAI今天也就宣布了这个产品。

VoiceEngine是一个可以克隆声音的模型，给出一段文本以及15秒的原始录音，就可以生成非常自然和原声音非常接近的文本转语音的结果。需要注意的是，OpenAI说：

It is notable that a small model with a single 15-second sample can create emotive and realistic voices.

从这段话中我们可以看出几点信息：

VoiceEngine似乎不是一个非常大的模型，而是一个small model
原始声音样本仅需15秒
合成的声音富有感情，并且十分逼真

需要注意的是Voice Engine是OpenAI在2022开发的，已经在文本转语音API接口以及ChatGPT的语音功能中使用。由于这种合成模型可能会造成混乱，所以他们对该模型的使用和发布非常谨慎。

已经有伙伴在测试VoiceEngine

为了更好地理解VoiceEngine的潜在用法，在去年底（2023年年末）的时候，OpenAI已经和伙伴合作，提供了该产品，试图通过小范围的试用来确保VoiceEngine如何合规的使用。

当前使用Voice Engine的产品和案例如下：

儿童教育公司Age of Learning通过使用Voice Engine为儿童提供有声读物，并提供根据个人定制实时的互动方式。
著名的视频合成服务商HeyGen也使用了VoiceEngine为视频创作者和企业服务。HeyGen与其企业客户合作，为各种内容创建定制的、类人的头像，从产品营销到销售演示。他们使用Voice Engine进行视频翻译，这样他们可以将一个讲话者的声音翻译成多种语言，触及全球受众。当用于翻译时，Voice Engine保留了原始讲话者的本地口音：例如，用法国讲话者的音频样本生成英语，会产生带有法国口音的演讲。

VoiceEngine未来的发布情况

OpenAI说他们认为VoiceEngine技术可能会被用来做很多不好的事情，所以他们虽然在2022年就开发了这项技术，但是一直没有公布，在2023年底邀请部分合作伙伴做了测试之后，现在也只是发布预览，而不是广泛发布，就是希望激发社会对应对日益逼真的生成模型带来的挑战的韧性。

OpenAI鼓励采取措施，如逐步淘汰以声音为基础的认证，因为这已经可能不够安全了。也希望探索保护个人声音在AI中的使用政策、教育公众理解AI技术的能力和限制、加速开发和采用追踪音视频内容来源的技术等。

目前，OpenAI要求使用这项技术需要明确告知用户，并且使用了水印追踪的技术来区分声音是否是由模型合成的。并且禁止使用该模型合成与公众人物相似的声音！

的确，虽然VoiceEngine令人期待，但显然这项技术的危害非常明显！

Voice Engine简介

已经有伙伴在测试VoiceEngine

VoiceEngine未来的发布情况

DataLearner 官方微信