HellaSwag

Updated Apr 3, 2026·1,448 views

Problem Count: 70000
Institution: University of Washington
Category: Commonsense Reasoning
Metrics: Accuracy
Language: English
Difficulty: Intermediate

Overview

A benchmark of roughly 70,000 multiple-choice questions designed to evaluate commonsense reasoning.

Related resources

View Paper
Get Dataset
Official Website

Latest HellaSwag model rankings and full benchmark leaderboard

Browse the latest scores, model modes, release dates, and parameter sizes for HellaSwag.

Source: DataLearnerAI

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Model Mode Legend

License:

Origin:

Model release cutoff:

Model				License
Claude3-Opus Standard Mode	95.40	2024-03-04	Unknown	Closed
Gemma2-27B Standard Mode	86.40	2024-05-14	27B	Free Commercial
Gemma 3 - 27B (IT) Standard Mode	85.60	2025-03-12	27B	Free Commercial

Latest HellaSwag model rankings and full benchmark leaderboard

HellaSwag Rank