LiveBench
LiveBench是一个针对大型语言模型(LLM)的基准测试框架。该框架通过每月更新基于近期来源的问题集来评估模型性能。问题集涵盖数学、编码、推理、语言理解、指令遵循和数据分析等类别。LiveBench采用自动评分机制,确保评估基于客观事实而非主观判断。基准测试的总问题数量约为1000个,每月替换约1/6的问题,以维持测试的有效性。
更新于 2026-04-11
1,463 次浏览
问题数量
1000
发布机构
个人
评测类别
综合评估
评测指标
Accuracy
支持语言
英文
难度等级
中等难度
简介
一种抗污染的大型语言模型基准测试
相关资源
LiveBench 大模型得分排行榜
数据来源:DataLearnerAI
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
模式说明:
normal
thinking
low
medium
high
deeper thinking
parallel_thinking
图表加载中...
LiveBench评测最新大模型排名与完整榜单数据
查看 LiveBench 的最新得分、模型模式、发布时间与参数规模,快速了解当前完整榜单表现。
模型发布时间截止:
LiveBench详细排名数据表格
| 排名 | 模型 | |||
|---|---|---|---|---|
| 1 | GPT-5 思考水平 · 高 | 79.33 | 2025-08-07 | 未知 |
| 2 | GPT-5 思考水平 · 中 | 78.85 | 2025-08-07 | 未知 |
| 3 | 78.73 | 2025-08-07 | 未知 | |
| 4 | 78.26 | 2025-09-30 | 未知 | |
| 5 | 78.24 | 2025-09-15 | 未知 | |
| 6 | Claude Opus 4.5 思考水平 · 高 | 75.58 | 2025-11-25 | 未知 |
| 7 | 75.25 | 2025-08-06 | 未知 | |
| 8 | Claude Opus 4.5 思考水平 · 中 | 74.87 | 2025-11-25 | 未知 |
| 9 | 74.14 | 2025-11-18 | 未知 | |
| 10 | 73.82 | 2025-05-23 | 未知 | |
| 11 | Grok 4 常规 | 72.84 | 2025-07-10 | 未知 |
| 12 | 71.92 | 2025-06-05 | 未知 | |
| 13 | 71.86 | 2025-08-07 | 未知 | |
| 14 | 71.64 | 2025-09-29 | 6710 | |
| 15 | 71.40 | 2025-09-22 | 6710 | |
| 16 | Haiku 4.5 扩展思考 | 71.38 | 2025-10-15 | 未知 |
| 17 | GLM-4.6 常规 | 71.22 | 2025-09-30 | 3550 |
| 18 | GLM-4.6 思考 | 71.22 | 2025-09-30 | 3550 |
| 19 | 70.56 | 2025-09-30 | 未知 | |
| 20 | 69.86 | 2025-09-05 | 未知 | |
| 21 | 69.41 | 2025-01-20 | 6710 | |
| 22 | 69.11 | 2025-07-25 | 2350 | |
| 23 | 68.64 | 2025-02-25 | 未知 | |
| 24 | 68.20 | 2025-09-25 | 未知 | |
| 25 | 68.09 | 2025-09-19 | 未知 | |
| 26 | 67.93 | 2025-11-06 | 10400 | |
| 27 | 67.77 | 2025-08-06 | 未知 | |
| 28 | 66.64 | 2025-09-29 | 6710 | |
| 29 | 65.40 | 2025-05-23 | 未知 | |
| 30 | 65.18 | 2025-07-21 | 2350 |
滚动或悬停加载剩余 21 条