LiveBench 评测基准详情
LiveBench是一个针对大型语言模型(LLM)的基准测试框架。该框架通过每月更新基于近期来源的问题集来评估模型性能。问题集涵盖数学、编码、推理、语言理解、指令遵循和数据分析等类别。LiveBench采用自动评分机制,确保评估基于客观事实而非主观判断。基准测试的总问题数量约为1000个,每月替换约1/6的问题,以维持测试的有效性。
Views418
问题数量
1000
发布机构
个人
评测类别
综合评估
评测指标
Accuracy
支持语言
英文
难度等级
中等难度
简介
一种抗污染的大型语言模型基准测试
相关资源
LiveBench 大模型得分排行榜
数据来源:DataLearnerAI
模式说明:
normal
thinking
low
medium
high
deeper thinking
parallel_thinking
图表加载中...
详细评测数据
LiveBench详细排名数据表格
| 排名 | 模型 | |||
|---|---|---|---|---|
| 1 | GPT-5high | 79.33 | 2025-08-07 | 未知 |
| 2 | GPT-5medium | 78.85 | 2025-08-07 | 未知 |
| 3 | GPT-5-Prothinking | 78.73 | 2025-08-07 | 未知 |
| 4 | Claude Sonnet 4.5thinking | 78.26 | 2025-09-30 | 未知 |
| 5 | GPT-5 Codexthinking | 78.24 | 2025-09-15 | 未知 |
| 6 | Claude Opus 4.5high | 75.58 | 2025-11-25 | 未知 |
| 7 | Claude Opus 4.1thinking | 75.25 | 2025-08-06 | 未知 |
| 8 | Claude Opus 4.5medium | 74.87 | 2025-11-25 | 未知 |
| 9 | Gemini 3.0 Pro (Preview 11-2025)thinking | 74.14 | 2025-11-18 | 未知 |
| 10 | Claude Sonnet 4thinking | 73.82 | 2025-05-23 | 未知 |
| 11 | GPT-5.2thinking + 使用工具 | 73.67 | 2025-12-11 | 未知 |
| 12 | 72.84 | 2025-07-10 | 未知 | |
| 13 | Gemini 2.5-Prothinking | 71.92 | 2025-06-05 | 未知 |
| 14 | 71.86 | 2025-08-07 | 未知 | |
| 15 | DeepSeek V3.2-Expthinking | 71.64 | 2025-09-29 | 6710 |
| 16 | DeepSeek-V3.1 Terminusthinking | 71.4 | 2025-09-22 | 6710 |
| 17 | Haiku 4.5thinking | 71.38 | 2025-10-15 | 未知 |
| 18 | 71.22 | 2025-09-30 | 3550 | |
| 19 | GLM-4.6thinking | 71.22 | 2025-09-30 | 3550 |
| 20 | 70.56 | 2025-09-30 | 未知 | |
| 21 | 69.86 | 2025-09-05 | 未知 | |
| 22 | 69.41 | 2025-01-20 | 6710 | |
| 23 | Qwen3-235B-A22B-Thinking-2507thinking | 69.11 | 2025-07-25 | 2350 |
| 24 | Claude Sonnet 3.7thinking | 68.64 | 2025-02-25 | 未知 |
| 25 | Gemini 2.5 Flash-Preview-09-2025thinking | 68.2 | 2025-09-25 | 未知 |
| 26 | 68.09 | 2025-09-19 | 未知 | |
| 27 | Kimi K2 Thinkingthinking | 67.93 | 2025-11-06 | 10400 |
| 28 | 67.77 | 2025-08-06 | 未知 | |
| 29 | 66.64 | 2025-09-29 | 6710 | |
| 30 | 65.4 | 2025-05-23 | 未知 |
将鼠标移至此处继续加载剩余 22 条