加载中...
加载中...
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送


从图表数据来看,GPT-5的表现在多方面均超越了其他模型,主要体现在以下几点:
下面将对每个评测基准的表现进行逐一分析:
1. HLE (Humanity’s Last Exam) 知识问答
HLE是由Safety for AI和Scale AI的研究人员共同推出的评测基准,旨在成为大模型“闭卷学术评测的终极考验”。其题目筛选流程十分严格:
该评测因其高难度而被部分观点称为“人类最后的难题”,意指如果大模型能解决这些问题,其能力或可被认为超越了人类专家。在此项评测中,GPT-5的得分遥遥领先。
两个GPT-5版本在此项评测上得分领先。最接近的Grok 4 Heavy得分为44.40,而GPT-5 Reasoning的得分为56.6,高出约27%。即便是基础版的GPT-5,其得分也高出Grok 4 Heavy约12%。值得注意的是,Grok 4 Heavy的成绩是基于多智能体并行推理并择优得出的。
2. GPQA Diamond 常识推理
该基准旨在评估模型解决需要专家级别理解和推理能力的问题,其数据集主要来自公开的研究生级别或竞赛级别问题,覆盖物理、化学、生物学和经济学等STEM领域。
该基准用于衡量模型的常识和深度推理能力。在此项评测中,GPT-5的两个版本再次占据前两名,并且是图表中唯一得分超过90分的模型。
3. SWE-bench Verified 代码生成
SWE-bench旨在提供一个可靠、精确的评估工具,以全面了解AI模型在处理软件工程任务时的能力。它的问题来自GitHub知名项目的真实议题(issues),要求模型根据给定的代码库和问题描述生成修复补丁,并通过相关的单元测试来验证修复的有效性。
GPT-5 Reasoning在此项评测中取得了90分,这意味着模型有能力独立解决大量真实的软件工程任务和错误修复。在所有参与评测的模型中,GPT-5是唯一得分超过75分的模型,展现出显著的领先优势。
4. AIME2025 数学推理
在AIME2025(美国高中数学邀请赛)评测中,两个GPT-5版本均获得了满分。如果数据属实,这可能标志着AI在高等数学推理能力上达到了一个新的里程碑。
若此次泄露的数据可靠,则表明GPT-5相较于当前市面上的顶尖模型,可能代表着一次代际飞跃,尤其是在被视为AI核心能力的“推理”方面。
重要提示:在OpenAI官方正式发布和提供独立第三方评测结果之前,当前流传的数据仅供参考。
关于GPT-5的后续官方信息,DataLearnerAI将持续关注并第一时间更新,相关信息可在其模型信息卡页面查看:https://www.datalearner.com/ai-models/pretrained-models/gpt-5