新产品越来越近!OpenAI可能会推出全球最强个人助手Jarvis个人助理工具:OpenAI新商标Voice Engine透露出OpenAI正在做的事情!

标签:#OpenAI##VoiceEngine##语音生成# 时间:2024/03/22 17:21:48 作者:小木

OpenAI正在申请一个新商标Voice Engine,商标的覆盖范围主要是围绕语音识别、语音合成和语音生成几个方面。这暗示着OpenAI可能即将推出围绕语音引擎开发的产品或者服务,很有可能是类似Siri那样的个人助理产品。尽管这是商标申请,但是谷歌前雇员透露的信息以及上个月泄露的OpenAI正在开发的Agent产品都似乎印证着OpenAI要做的事情:开发一个全球最强的个人助理,接管个人设备,以Jarvis那样的形式提供服务!


[TOC]

Voice Engine商标内容

Voice Engine是OpenAI最近提交一个商标名称,其内容主要包含了语音识别和语音合成相关的内容。

OpenAI申请商标Voice Engine

这个商标背后可能提供的产品和服务涵盖了广泛的计算机软件和开发工具领域,特别是在语音和自然语言处理技术方面。具体来说,可能提供的产品和服务包括但不限于:

  1. 语音和语言识别软件:这包括可用于语音识别、处理语音命令以及文本和语音之间转换的计算机软件。

  2. 自动语音识别和生成软件:用于自动识别和生成语音的软件,可能在虚拟助手、智能家居设备等场景中有广泛应用。

  3. 基于自然语言提示生成语音和音频输出的软件:这类软件能够根据文本、语音、视觉提示、图像或视频生成语音和音频输出,可用于各种应用,如内容创作、教育、娱乐等。注意,这不是文本转语音,而是根据文本提示生成语音结果!

  4. 数字语音助手开发工具:提供用于构建数字语音助手的软件和开发工具,有助于开发者创建智能交互应用。虽然是工具,但是显然这是可以用于开发个人助理的工具!

  5. 响应用户提示生成音频或语音的软件:这类软件能够根据用户的提示生成相应的音频或语音输出,可能用于互动媒体、游戏或其他应用中。这个目前在ChatGPT客户端也有了,就是用语音响应用户输入。

  6. 大型人工智能模型定制工具:提供可用于使用和定制基于大量数据训练的大型人工智能模型的软件和开发工具,这可能涉及到语音识别、自然语言处理等领域。

  7. 机器学习基础的自然语言和语音处理软件:涉及使用机器学习技术进行自然语言和语音的处理、识别和分析的软件。

  8. 多语言语音识别、翻译和转录软件:支持多语言的语音识别、翻译和转录功能的软件,适用于国际化应用、内容创作等场景。

  9. 利用人工智能进行文本到语音转换的软件:这类软件可以自动将文本转换为语音或音频,可能用于阅读器、教育应用等。

  10. 应用程序接口(API)软件:提供可作为API使用的软件,可能支持开发者在各种应用和服务中集成语音和自然语言处理功能。

  11. 软件开发套件(SDKs):包含开发语音服务交付和自然语言理解技术的工具,便于开发者在全球计算机网络上构建相关应用。

综上所述,VOICE ENGINE™旨在为开发者和创新者提供一系列强大的工具和软件,以便在各种平台和设备上开发和集成先进的语音交互和自然语言处理功能。

而这其中最令人关注的应该是下面的2个内容:一个是可以配合Sora视频生成的功能,为视频配音;另一个则是作为个人助理,支持语音交互!

基于自然语言提示生成语音和音频输出的软件

传统的语音领域的模型主要方向包括2类:一个是语音合成,即Text to speech(TTS):将文本转成语音。另一个是自动语音识别(Auto Speech Recognition,ASR),即识别语音转成文本。

但是,根据这个描述响应用户提示生成音频或语音的软件,这个能力应该是类似视频生成和图片生成那种,基于文本prompt,来生成相应的语音结果。

例如,你可以给系统说,生成一段音乐或者一只老虎在野外和狮子战斗的声音。然后模型返回相应的语音结果。这不是一种文本转语音而是语音生成的能力。

在最近爆火的OpenAI的Sora演示中(OpenAI最强的视频生成大模型: OpenAI发布全新文本生成视频大模型Sora,可以生成无比逼真的最长60秒的视频,且生成的视频尺寸可以任意指定),所有的视频都没有声音。OpenAI官方说目前他们还没有实现为生成的视频配音的功能。但是未来会支持。这意味着基于文本生成音频应该也是类似的技术了。

与Agent传言互相印证:OpenAI的Jarvis产品

在前面的商标描述中提到,OpenAI的Voice Engine可以提供响应用户提示生成音频或语音的软件。这几乎就是一个个人数字助理的形态,它不同于语音合成或者语音识别。而是根据用户的输入进行语音的响应。这意味着用户可以通过文本、语音来输入,然后服务直接用语音回复结果。

从技术角度来说,传统的语音助理应该是先通过ASR识别用户的语音,然后转成文本,GPT再根据文本生成答案,再由TTS技术合成语音输出。这个分步系统最大的缺点就是时延以及准确性!三个步骤,每个步骤准确率90%,最终的回复准确率可能只有72.9%了!如果这是一个端到端的模型(符合OpenAI当前的技术趋势),那么时延和准确性都值得期待!

此外,结合此前的传言说GPT可能要接入个人本地电脑系统,那作为一个个人助手完全是没问题的。

同时,谷歌前雇员Jonathan Chavez在前段时间也发布过一个消息,他说OpenAI在今年会推出一个全球最好的个人助理产品,就像钢铁侠中的Jarvis。


Jarvis除了需要有GPT-4那种强大的语言响应能力外,还有个重要的特点是语音的输入和输出。虽然在当前的ChatGPT客户端和网页版中已经实现了语音交互以及文本转语音的能力。但是,它本身是为了支撑ChatGPT的功能存在的,范围局限在ChatGPT的对话过程中。一旦如果像Jonathan Chavez所说是一个前所未有最强大的个人助理,那么意味着它可以帮助我们操作我们的电脑和手机,使用APP等。

这个消息和上个月泄露的OpenAI正在做一个强大的AI Agent也有很大的相关性: OpenAI正在开发一个全新的基于大模型的Agent产品。在这个传言中,OpenAI做的事情:

OpenAI正在开发的这个Agent形式的产品,通过有效地接管用户的设备来让复杂任务被自动执行。然后,用户可以请求ChatGPT将数据从文档转移到电子表格中进行分析,或自动填写费用报告并将其输入会计软件。这类请求将触发ChatGPT来执行点击、光标移动、文本输入以及人们在使用不同应用程序时进行的其他操作。

OpenAI的Voice Engine商标的原始描述

链接参考:https://uspto.report/TM/98456635

原始描述如下:

Mark For: VOICE ENGINE™ trademark registration is intended to cover the categories of downloadable computer programs, downloadable computer software development tools, and downloadable computer software for voice and speech recognition, processing voice commands, and converting between text and speech; downloadable computer programs, downloadable computer software development tools, and downloadable computer software for automatic speech and voice recognition and generation; downloadable computer programs, downloadable computer software development tools, and downloadable computer software for creating and generating voice and audio outputs based on natural language prompts, text, speech, visual prompts, images, and/or video; downloadable computer programs, downloadable computer software development tools, and downloadable computer software for building digital voice assistants; downloadable computer programs, downloadable computer software development tools, and downloadable computer software for generation of audio and/or voice in response to user prompts; downloadable computer software development tools, and downloadable computer software for using and customizing large artificial intelligence models trained on a large quantity of data; downloadable computer programs, downloadable computer software development tools, and downloadable computer software for machine-learning based natural language and speech processing, recognition, and analysis; downloadable computer programs, downloadable computer software development tools, and downloadable computer software for multi-lingual speech recognition, translation, and transcription; computer programs, downloadable computer software development tools, and downloadable computer software using artificial intelligence for automatic text to voice and text to audio conversion; downloadable computer software for use as an application programming interface (API); downloadable software development kits (sdks) consisting of computer software development tools for the development of voice service delivery and natural language understanding technology across global computer networks.

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
Back to Top