HellaSwag

Hella Swag

一个包含 70,000 个多项选择题的基准,用于评估模型的常识推理能力。

英语 难度:Intermediate

主要统计信息

问题数量

70000

机构

University of Washington

类别

常识推理

评估指标

Accuracy

HellaSwag基准测试简介

HellaSwag 大模型得分排行榜

冠军
亚军
季军
其他排名

详细排名数据表格

模型简称 HellaSwag得分 发布机构 发布时间 参数规模(亿)
Claude3-Opus 95.4 Anthropic Logo 2024-03-04 0.0
得分:
95.4
发布时间:
2024-03-04
参数规模(亿):
0.0