OpenAI首次发布语音合成大模型:VoiceEngine,一个可以用15秒原始录音就可以克隆声音的语音合成大模型
OpenAI发布的模型中最主要的是大语言模型GPT系列。而且GPT系列模型也在朝着多模态的方向发展。尽管OpenAI有自己的TTS和ASR大模型,但是此前从未正式宣布过。就在今天,OpenAI正式宣布了他们首个语音合成大模型VoiceEngine,该模型也将提供API访问。OpenAI官方的声明中说,现有的基于声音的认证系统应该被淘汰掉!因为已经不安全了!

Voice Engine简介
语音相关的技术大约可以分为2类,一种是识别语音即语音转文本(Auto-Speech—Recognition,ASR),另一种语音合成(Text-to-Speech,TTS)。在语音合成中,最近一个兴起的技术是语音克隆。语音克隆是语音合成技术的一个分支,它指的是使用人工智能和机器学习算法来模仿特定人的语音。这种技术可以生成与目标人声音非常相似的合成语音,包括其音调、节奏、语调和情感特征。语音克隆技术通常需要一段目标人的语音样本来训练模型,通过分析这些样本中的声音特征,机器学习模型能够学习如何产生相似的声音输出。
Voice Engine就是这样一个带语音克隆的语音合成模型。
首先从名字看这并不像是一个大模型的名字,更像是一个产品或者服务的名字。在前段时间,OpenAI已经被发现申请了VoiceEngine的商标(参考:新产品越来越近!OpenAI可能会推出全球最强个人助手Jarvis个人助理工具:OpenAI新商标Voice Engine透露出OpenAI正在做的事情!)。就在大家认为这个产品即将发布的时候,OpenAI今天也就宣布了这个产品。
VoiceEngine是一个可以克隆声音的模型,给出一段文本以及15秒的原始录音,就可以生成非常自然和原声音非常接近的文本转语音的结果。需要注意的是,OpenAI说:
