加载中...
加载中...
一个包含 200 多个不同任务的综合基准,用于评估模型的各种能力,包括推理、语言理解和知识。
Source: DataLearnerAI
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
暂无评测数据