重磅!ChatGPT加入多模态能力,可以听语音、生成语音并理解图片了!
几分钟之前,OpenAI宣布ChatGPT支持多模态,目前已经支持语音的输入、语音的输出、理解图片的输入!不过目前似乎仅限于客户端~官方说的是未来2周内企业和Plus用户可以使用,后面会普及到其它用户!

多模态版本背后的ChatGPT模型是GPT-4V,请参考DataLearner模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/GPT-4V
ChatGPT多模态能力简介
为了不断提升用户体验并提供更多多功能性,ChatGPT 推出了令人激动的新功能:声音和图像功能。这些功能使对话更加直观,并扩大了 ChatGPT 可以协助的任务范围。
与 ChatGPT 进行声音对话
ChatGPT 中最令人期待的功能之一是能够进行声音对话的能力。这种功能允许用户与人工智能助手进行互动式的、来回交流的讨论。
要开始使用声音功能,只需在移动应用程序上导航到“设置”→“新功能”并选择加入声音对话。然后,在主屏幕右上角点击耳机图标,选择五种可用选项中的首选声音。
这个功能背后是由一种新的文本到语音模型驱动的,它能够从文本和短暂的语音样本中生成极为逼真的音频。每个声音都是与专业声音演员合作精心打造的,确保了丰富而自然的对话体验。此外,OpenAI 还使用了 Whisper,他们的开源语音识别系统,以准确地将口语话语转录成文本。


