OpenAI发布的GPT-4o能力总结，数学推理能力超过所有模型，价格下降一半！

OpenAI在GPT-4发布一年之后再次更新其基础模型，发布最新的GPT-4o模型，其中o代表的是omni，即“全能”的意思。GPT-4o相比较此前最大的升级是对多模态的支持以及性能的提升，特别是数学推理能力有大幅提高。GPT-4o在各方面比GPT-4更强，但是速度更快，开发者接口的价格则只有一半！

GPT-4o能力介绍

GPT-4o的特点和优势总结如下：

多模态输入输出：GPT-4o能够接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合作为输出。这意味着它可以更自然地与人进行交互，不仅限于文字交流。
响应速度：GPT-4o对音频输入的响应时间可以快到232毫秒，平均为320毫秒，这与人类在对话中的响应时间相近，提供了更即时的互动体验。在GPT-4o之前的模型，GPT-3.5的语音模式响应约2.8秒，而GPT-4的语音响应约5.4秒，可以看到语音速度响应大幅提高！
性能和成本优势：在处理英语文本和代码方面，GPT-4o的性能与GPT-4 Turbo相当，但在处理非英语文本时有显著改进。同时，它的运行速度更快，使用API的成本降低了50%。
视觉和音频理解能力：与现有模型相比，GPT-4o在视觉和音频理解方面有更好的表现，这意味着它在处理图像和声音时更加准确和有效。

综上所述，GPT-4o是一种多模态、快速、高效且成本更低的模型，特别在视觉和音频处理方面表现优越，使人机交互更加自然流畅。

GPT-4o的综合评测结果

官方发布了GPT-4o在不同评测数据集的结果，其中MMLU评分88.7分，是截止目前为止，作为综合大模型最高的得分。而MATH数学得分76.6，大幅提高，MATH作为数学推理能力测评，一种都非常困难。此前，最高得分是Claude Opus的60.1分，也就是说GPT-4o在MATH数学推理上至少比当前市场上最好的模型提高27.5%！应该说非常强悍。

数据来源：https://www.datalearner.com/ai-models/leaderboard/datalearner-llm-leaderboard

而作为一个综合大模型，GPT-4o在编程的评测结果上也大幅提升。Human Eval的评测得分90.5分，在GPT-4基础上继续提高了5分。也是目前全球所有综合大模型以及编程大模型水平得分最高的一个。

数据来源：https://www.datalearner.com/ai-models/leaderboard/datalearner-llm-coding-leaderboard

除了语言相关的评测大幅提升外。GPT-4o在多模态能力也有大幅提高。其中自动语音识别ASR（Auto Speech Recognition）部分比此前Whipser-V3-Large有了明显提升，错误识别率大幅下降：

GPT-4o背后的模型技术

一如既往，没有任何信息。唯一官方透露的信息是，GPT-4o是一个端到端的跨文本、视觉、语音的模型。因此，所有的输入都在一个网络中进行。

GPT-4o的开放使用

目前，官网和APP都可以使用这个模型。免费用户也可以使用！Plus用户有5倍信息的使用数量！

对于开发者来说，GPT-4o的API接口快2倍，价格只有一半！

GPT-4o能力介绍

GPT-4o的综合评测结果

GPT-4o背后的模型技术

GPT-4o的开放使用

DataLearner WeChat