LiveBench

Name: LiveBench
Creator: 个人

LiveBench是一个针对大型语言模型（LLM）的基准测试框架。该框架通过每月更新基于近期来源的问题集来评估模型性能。问题集涵盖数学、编码、推理、语言理解、指令遵循和数据分析等类别。LiveBench采用自动评分机制，确保评估基于客观事实而非主观判断。基准测试的总问题数量约为1000个，每月替换约1/6的问题，以维持测试的有效性。

更新于 2026年6月23日·2,467 次浏览

问题数量: 1000
发布机构: 个人
评测类别: 综合评估
评测指标: Accuracy
支持语言: 英文
难度等级: 中等难度

简介

一种抗污染的大型语言模型基准测试

LiveBench评测最新大模型排名与完整榜单数据

查看 LiveBench 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

许可证:

来源:

模型发布时间截止:

排名	模型				开源情况
	GPT-5.5 深度思考模式	80.71	2026-04-23	未知	闭源
	GPT-5.4 深度思考模式	80.28	2026-03-05	未知	闭源
	Gemini 3.1 Pro Preview 思考水平·高	79.93	2026-02-20	未知	闭源
4	Claude Opus 4.8 深度思考模式	78.79	2026-05-28	未知	闭源
5	Claude Fable 5 深度思考模式	78.31	2026-06-09	未知	闭源
6	Claude Opus 4.8 思考水平·高	77.16	2026-05-28	未知	闭源
7	Opus 4.7 深度思考模式	76.91	2026-04-16	未知	闭源
8	Claude Opus 4.6 思考水平·高	76.33	2026-02-05	未知	闭源
9	GPT-5.5 思考水平·高	76.24	2026-04-23	未知	闭源
10	GLM-5.2 常规模式	76.24	2026-06-13	7533.3亿	免费商用
11	Opus 4.5 64K	75.96	2025-11-25	未知	闭源
12	Claude Sonnet 4.6 思考水平·中	75.47	2026-02-17	未知	闭源
13	Claude Opus 4.8 思考水平·中	75.47	2026-05-28	未知	闭源
14	Claude Fable 5 思考水平·高	75.47	2026-06-09	未知	闭源
15	Claude Sonnet 4.6 思考水平·高	75.32	2026-02-17	未知	闭源
16	GPT-5.4 思考水平·高	75.07	2026-03-05	未知	闭源
17	Gemini 3.5 Flash 思考水平·高	75.02	2026-06-20	未知	闭源
18	Opus 4.7 思考水平·高	74.89	2026-04-16	未知	闭源
19	GPT-5.2 思考水平·高	74.84	2025-12-11	未知	闭源
20	GPT-5.2-Codex 常规模式	74.30	2025-12-18	未知	闭源
21	Qwen3.7 Max 深度思考模式	74.29	2026-03-01	未知	闭源
22	GPT-5.1-Codex-Max 深度思考模式	73.98	2025-11-19	未知	闭源
23	DeepSeek-V4-Pro 常规模式	73.58	2026-04-24	16000亿	免费商用
24	Gemini 3.0 Pro (Preview 11-2025) 思考水平·高	73.39	2025-11-18	未知	闭源
25	GPT-5.3 Codex 思考水平·高	72.76	2026-02-05	未知	闭源
26	Gemini 3.0 Flash 思考水平·高	72.40	2025-12-17	未知	闭源
27	Opus 4.7 思考水平·中	72.31	2026-04-16	未知	闭源
28	Kimi K2.6 开启思考	72.17	2026-04-20	10000亿	免费商用
29	GPT-5.1 思考水平·高	72.04	2025-11-12	未知	闭源
30	Kimi K2.7 Code 常规模式	71.89	2026-06-12	10000亿	免费商用

继续滚动可加载剩余 85 条

LiveBench评测最新大模型排名与完整榜单数据

LiveBench 排名