OpenAI首次发布语音合成大模型:VoiceEngine,一个可以用15秒原始录音就可以克隆声音的语音合成大模型

标签:#OpenAI##TTS##VoiceEngine##语音克隆##语音合成# 时间:2024/03/30 08:38:45 作者:小木

OpenAI发布的模型中最主要的是大语言模型GPT系列。而且GPT系列模型也在朝着多模态的方向发展。尽管OpenAI有自己的TTS和ASR大模型,但是此前从未正式宣布过。就在今天,OpenAI正式宣布了他们首个语音合成大模型VoiceEngine,该模型也将提供API访问。OpenAI官方的声明中说,现有的基于声音的认证系统应该被淘汰掉!因为已经不安全了!


[TOC]

Voice Engine简介

语音相关的技术大约可以分为2类,一种是识别语音即语音转文本(Auto-Speech—Recognition,ASR),另一种语音合成(Text-to-Speech,TTS)。在语音合成中,最近一个兴起的技术是语音克隆。语音克隆是语音合成技术的一个分支,它指的是使用人工智能和机器学习算法来模仿特定人的语音。这种技术可以生成与目标人声音非常相似的合成语音,包括其音调、节奏、语调和情感特征。语音克隆技术通常需要一段目标人的语音样本来训练模型,通过分析这些样本中的声音特征,机器学习模型能够学习如何产生相似的声音输出。

Voice Engine就是这样一个带语音克隆的语音合成模型

首先从名字看这并不像是一个大模型的名字,更像是一个产品或者服务的名字。在前段时间,OpenAI已经被发现申请了VoiceEngine的商标(参考:新产品越来越近!OpenAI可能会推出全球最强个人助手Jarvis个人助理工具:OpenAI新商标Voice Engine透露出OpenAI正在做的事情!)。就在大家认为这个产品即将发布的时候,OpenAI今天也就宣布了这个产品。

VoiceEngine是一个可以克隆声音的模型,给出一段文本以及15秒的原始录音,就可以生成非常自然和原声音非常接近的文本转语音的结果。需要注意的是,OpenAI说:

It is notable that a small model with a single 15-second sample can create emotive and realistic voices.

从这段话中我们可以看出几点信息:

  • VoiceEngine似乎不是一个非常大的模型,而是一个small model
  • 原始声音样本仅需15秒
  • 合成的声音富有感情,并且十分逼真

需要注意的是Voice Engine是OpenAI在2022开发的,已经在文本转语音API接口以及ChatGPT的语音功能中使用。由于这种合成模型可能会造成混乱,所以他们对该模型的使用和发布非常谨慎。

已经有伙伴在测试VoiceEngine

为了更好地理解VoiceEngine的潜在用法,在去年底(2023年年末)的时候,OpenAI已经和伙伴合作,提供了该产品,试图通过小范围的试用来确保VoiceEngine如何合规的使用。

当前使用Voice Engine的产品和案例如下:

  • 儿童教育公司Age of Learning通过使用Voice Engine为儿童提供有声读物,并提供根据个人定制实时的互动方式。
  • 著名的视频合成服务商HeyGen也使用了VoiceEngine为视频创作者和企业服务。HeyGen与其企业客户合作,为各种内容创建定制的、类人的头像,从产品营销到销售演示。他们使用Voice Engine进行视频翻译,这样他们可以将一个讲话者的声音翻译成多种语言,触及全球受众。当用于翻译时,Voice Engine保留了原始讲话者的本地口音:例如,用法国讲话者的音频样本生成英语,会产生带有法国口音的演讲。

VoiceEngine未来的发布情况

OpenAI说他们认为VoiceEngine技术可能会被用来做很多不好的事情,所以他们虽然在2022年就开发了这项技术,但是一直没有公布,在2023年底邀请部分合作伙伴做了测试之后,现在也只是发布预览,而不是广泛发布,就是希望激发社会对应对日益逼真的生成模型带来的挑战的韧性。

OpenAI鼓励采取措施,如逐步淘汰以声音为基础的认证,因为这已经可能不够安全了。也希望探索保护个人声音在AI中的使用政策、教育公众理解AI技术的能力和限制、加速开发和采用追踪音视频内容来源的技术等。

目前,OpenAI要求使用这项技术需要明确告知用户,并且使用了水印追踪的技术来区分声音是否是由模型合成的。并且禁止使用该模型合成与公众人物相似的声音!

的确,虽然VoiceEngine令人期待,但显然这项技术的危害非常明显!

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
相关博客