C-Eval
更新于 2026-04-03
1,374 次浏览
问题数量
13948
发布机构
请选择发布机构
评测类别
综合评估
评测指标
Accuracy
支持语言
中文
难度等级
基础
简介
一个涵盖人文社科、理工科等多个学科的中文多项选择题基准,用于评估模型在中文环境下的知识和推理能力。
相关资源
C-Eval Model Score Leaderboard
Source: DataLearnerAI
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
模式说明:
normal
thinking
low
medium
high
deeper thinking
parallel_thinking
图表加载中...
Latest C-Eval model rankings and full benchmark leaderboard
Browse the latest scores, model modes, release dates, and parameter sizes for C-Eval.
C-Eval详细排名数据表格
| 排名 | 模型 | |||
|---|---|---|---|---|
| 1 | Qwen3-Max-Thinking Thinking Level · Medium | 93.7 | 2026-01-26 | 10000 |
| 2 | Qwen 3.6 Plus Preview Thinking Level · Medium | 93.3 | 2026-03-31 | 未知 |
| 3 | Qwen3.5-397B-A17B Thinking Level · Medium | 93 | 2026-02-16 | 397 |
| 4 | Hunyuan-T1 Normal | 91.8 | 2025-03-21 | 未知 |
| 5 | Qwen3.5-27B Thinking Level · Medium | 90.5 | 2026-02-25 | 270 |