LiveBench
LiveBench是一个针对大型语言模型(LLM)的基准测试框架。该框架通过每月更新基于近期来源的问题集来评估模型性能。问题集涵盖数学、编码、推理、语言理解、指令遵循和数据分析等类别。LiveBench采用自动评分机制,确保评估基于客观事实而非主观判断。基准测试的总问题数量约为1000个,每月替换约1/6的问题,以维持测试的有效性。
更新于 2026-03-18
1,372 次浏览
问题数量
1000
发布机构
个人
评测类别
综合评估
评测指标
Accuracy
支持语言
英文
难度等级
中等难度
简介
一种抗污染的大型语言模型基准测试
相关资源
LiveBench Model Score Leaderboard
Source: DataLearnerAI
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
模式说明:
normal
thinking
low
medium
high
deeper thinking
parallel_thinking
图表加载中...
Latest LiveBench model rankings and full benchmark leaderboard
Browse the latest scores, model modes, release dates, and parameter sizes for LiveBench.
LiveBench详细排名数据表格
| 排名 | 模型 | |||
|---|---|---|---|---|
| 1 | GPT-5 Thinking Level · High | 79.33 | 2025-08-07 | 未知 |
| 2 | GPT-5 Thinking Level · Medium | 78.85 | 2025-08-07 | 未知 |
| 3 | GPT-5-Pro Thinking Level · Medium | 78.73 | 2025-08-07 | 未知 |
| 4 | Claude Sonnet 4.5 Thinking Level · Medium | 78.26 | 2025-09-30 | 未知 |
| 5 | GPT-5 Codex Thinking Level · Medium | 78.24 | 2025-09-15 | 未知 |
| 6 | Claude Opus 4.5 Thinking Level · High | 75.58 | 2025-11-25 | 未知 |
| 7 | Claude Opus 4.1 Thinking Level · Medium | 75.25 | 2025-08-06 | 未知 |
| 8 | Claude Opus 4.5 Thinking Level · Medium | 74.87 | 2025-11-25 | 未知 |
| 9 | Gemini 3.0 Pro (Preview 11-2025) Thinking Level · Medium | 74.14 | 2025-11-18 | 未知 |
| 10 | Claude Sonnet 4 Thinking Level · Medium | 73.82 | 2025-05-23 | 未知 |
| 11 | Grok 4 Normal | 72.84 | 2025-07-10 | 未知 |
| 12 | Gemini 2.5-Pro Thinking Level · Medium | 71.92 | 2025-06-05 | 未知 |
| 13 | GPT-5-mini Normal | 71.86 | 2025-08-07 | 未知 |
| 14 | DeepSeek V3.2-Exp Thinking Level · Medium | 71.64 | 2025-09-29 | 6710 |
| 15 | DeepSeek-V3.1 Terminus Thinking Level · Medium | 71.4 | 2025-09-22 | 6710 |
| 16 | Haiku 4.5 Deep Thinking | 71.38 | 2025-10-15 | 未知 |
| 17 | GLM-4.6 Normal | 71.22 | 2025-09-30 | 3550 |
| 18 | GLM-4.6 Thinking Level · Medium | 71.22 | 2025-09-30 | 3550 |
| 19 | Claude Sonnet 4.5 Normal | 70.56 | 2025-09-30 | 未知 |
| 20 | Qwen3 Max (Preview) Normal | 69.86 | 2025-09-05 | 未知 |
| 21 | DeepSeek-R1 Normal | 69.41 | 2025-01-20 | 6710 |
| 22 | Qwen3-235B-A22B-Thinking-2507 Thinking Level · Medium | 69.11 | 2025-07-25 | 2350 |
| 23 | Claude Sonnet 3.7 Thinking Level · Medium | 68.64 | 2025-02-25 | 未知 |
| 24 | Gemini 2.5 Flash-Preview-09-2025 Thinking Level · Medium | 68.2 | 2025-09-25 | 未知 |
| 25 | Grok 4 Fast Normal | 68.09 | 2025-09-19 | 未知 |
| 26 | Kimi K2 Thinking Thinking Level · Medium | 67.93 | 2025-11-06 | 10400 |
| 27 | Claude Opus 4.1 Normal | 67.77 | 2025-08-06 | 未知 |
| 28 | DeepSeek V3.2-Exp Normal | 66.64 | 2025-09-29 | 6710 |
| 29 | Claude Sonnet 4 Normal | 65.4 | 2025-05-23 | 未知 |
| 30 | Qwen3-235B-A22B-2507 Normal | 65.18 | 2025-07-21 | 2350 |
滚动或悬停加载剩余 21 条