HellaSwag

更新于 2026年4月3日·1,464 次浏览

一个包含 70,000 个多项选择题的基准，用于评估模型的常识推理能力。

HellaSwag评测最新大模型排名与完整榜单数据

查看 HellaSwag 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

许可证:

来源:

模型发布时间截止: