Context Arena
Context Arena 是一个专注于评估大语言模型长上下文处理能力的基准平台。它基于 OpenAI 发布的 Multi-Round Coreference Resolution (MRCR) 数据集,提供交互式排行榜,用于比较不同模型在复杂长对话中的信息检索和理解性能。该基准强调模型在长上下文下的实际表现,避免单纯依赖训练数据记忆。
更新于 2026-04-06
356 次浏览
问题数量
—
发布机构
个人
评测类别
文本向量检索
评测指标
Accuracy
支持语言
英文
难度等级
中等难度
简介
基于多轮对话数据集测试大模型超长上下文的能力
相关资源
Context Arena 大模型得分排行榜
数据来源:DataLearnerAI
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
模式说明:
normal
thinking
low
medium
high
deeper thinking
parallel_thinking
图表加载中...
Context Arena评测最新大模型排名与完整榜单数据
查看 Context Arena 的最新得分、模型模式、发布时间与参数规模,快速了解当前完整榜单表现。
Context Arena详细排名数据表格
| 排名 | 模型 | |||
|---|---|---|---|---|
| 1 | Gemma 4 26B A4B 思考水平 · 中 | 44.1 | 2026-04 | 25.2 |