LongBench v2评测基准：大模型排名与测试结果 | DataLearnerAI

LongBench v2

更新于 2026年6月23日·298 次浏览

问题数量: 503
发布机构: THUDM / Tsinghua University
评测类别: 长上下文能力
评测指标: Accuracy
支持语言: English
难度等级: Advanced

简介

LongBench v2 是面向真实长上下文理解和推理的基准，包含 503 道多选题，文本长度覆盖 8k 到 2M words，任务覆盖单/多文档问答、长对话、代码仓库理解和结构化数据理解等场景。

相关资源

LongBench v2评测最新大模型排名与完整榜单数据

查看 LongBench v2 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

许可证:

来源:

模型发布时间截止:

排名	模型				开源情况
	Opus 4.5 常规模式	64.40	2025-11-25	未知	闭源
	Qwen3.5-397B-A17B 常规模式	63.20	2026-02-16	397亿	免费商用
	Qwen 3.6 Plus Preview 常规模式	62.00	2026-03-31	未知	闭源
4	Nemotron 3 Ultra 常规模式	61.90	2026-06-04	5500亿	免费商用
5	Kimi K2.5 常规模式	61.00	2026-01-27	10000亿	免费商用
6	GLM-5 常规模式	60.80	2026-02-11	7440亿	免费商用
7	Qwen3.5-27B 常规模式	60.60	2026-02-25	270亿	免费商用
8	Qwen3.5-122B-A10B 常规模式	60.20	2026-02-25	1220亿	免费商用
9	Qwen3.5-35B-A3B 常规模式	59.00	2026-02-25	350亿	免费商用
10	DeepSeek-V4-Pro-Base 常规模式	51.50	2026-04-24	16000亿	免费商用
11	DeepSeek-V4-Flash-Base 常规模式	44.70	2026-04-24	2840亿	免费商用