DataLearner 标志DataLearnerAI
AI技术博客
大模型评测排行
大模型评测基准
AI大模型大全
AI资源仓库
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
  1. 大模型评测基准列表
  2. /
  3. HLE

HLE 评测基准详情

近年来,大语言模型(LLM)的能力飞速提升,但评测基准的发展却显得滞后。以广泛使用的MMLU(大规模多任务语言理解)为例,GPT-4、Claude等前沿模型已能在其90%以上的问题上取得高分。这种“评测饱和”现象导致研究者难以精准衡量模型在尖端知识领域的真实能力。为此,Safety for AI和Scale AI的研究人员推出了Humanity’s Last Exam大模型评测基准。这是一个全新的评测基准,旨在成为大模型“闭卷学术评测的终极考验”。

更新2026-02-04
Views1,509
问题数量
3000
发布机构
Center for AI Safety
评测类别
综合评估
评测指标
Accuracy
支持语言
英文
难度等级
高难度

简介

研究生水平以上的超高难度、覆盖超多学科的大模型评测基准

相关资源

查看原始论文
阅读学术论文原文
获取数据集
下载评测数据集
访问官网
浏览项目官方网站
DataLearner 介绍
中文详细解读

HLE 大模型得分排行榜

数据来源:DataLearnerAI

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

模式说明:
normal
thinking
low
medium
high
deeper thinking
parallel_thinking
图表加载中...

详细评测数据

已排除 3 条并行模式成绩

HLE详细排名数据表格

排名模型
1
Kimi K2.5thinking + 使用工具
50.22026-01-2710000
2
GPT-5.2 Prothinking + 使用工具
502025-12-11未知
3
Qwen3-Max-Thinkingthinking + 使用工具
49.82026-01-2610000
4
GPT-5.2thinking + 使用工具
45.52025-12-11未知
5
Kimi K2 Thinkingthinking + 使用工具
44.92025-11-0610400
6
Gemini 3.0 Flashthinking + 使用工具
43.52025-12-17未知
7
Claude Opus 4.5thinking + 使用工具
43.22025-11-25未知
8
GLM-4.7thinking + 使用工具
42.82025-12-223580
9
GPT-5-Prothinking + 使用工具
422025-08-07未知
10
Grok 4thinking + 使用工具+联网
38.62025-07-10未知
11
Grok 4thinking + 使用工具
38.62025-07-10未知
12
Gemini 3.0 Pro (Preview 11-2025)thinking
37.52025-11-18未知
13
GPT-5.2 Prothinking
36.62025-12-11未知
14
GPT-5thinking + 使用工具
35.22025-08-07未知
15
Gemini 2.5 Deep Thinkdeeper thinking
34.82025-08-01未知
16
GPT-5.2thinking
34.52025-12-11未知
17
Gemini 3.0 Flashthinking
33.72025-12-17未知
18
Claude Opus 4.5thinking
30.82025-11-25未知
19
GPT-5-Prothinking
30.72025-08-07未知
20
DeepSeek V3.2 Specialethinking
30.62025-12-01未知
21
GLM-4.6thinking + 使用工具
30.42025-09-303550
22
Qwen3-Max-Thinkingthinking
30.22026-01-2610000
23
Kimi K2.5thinking
30.12026-01-2710000
24
GPT-5.1thinking
26.52025-11-12未知
25
Grok 4thinking
25.42025-07-10未知
26
DeepSeek V3.2thinking
25.12025-12-016710
27
GPT-5thinking
24.82025-08-07未知
将鼠标移至此处继续加载剩余 58 条