DROP

Discrete Reasoning over the content of Paragraphs

一个需要模型进行离散推理的阅读理解基准,包括计数、比较和排序等操作。

英语 难度:Advanced
问题数量

96000

机构

Allen Institute for AI

类别

阅读理解

评估指标

F1

DROP基准测试简介

模型简称 得分 发布机构 发布时间 参数规模(亿)
Pangu Pro MoE 91.2 华为 2025-06-30 719.0
ERNIE-4.5-300B-A47B 91.1 百度 2025-06-30 3000.0
DeepSeek-V3-0324 89.7 DeepSeek-AI 2025-03-24 6810.0
GPT-4.1 89.2 OpenAI 2025-04-14 未知
Qwen3-235B-A22B 88.7 阿里巴巴 2025-04-28 2350.0
Claude3-Opus 83.1 Anthropic 2024-03-04 0.0
得分:
91.2
发布时间:
2025-06-30
参数规模(亿):
719.0
得分:
91.1
发布时间:
2025-06-30
参数规模(亿):
3000.0
得分:
89.7
发布时间:
2025-03-24
参数规模(亿):
6810.0
得分:
89.2
发布时间:
2025-04-14
参数规模(亿):
未知
得分:
88.7
发布时间:
2025-04-28
参数规模(亿):
2350.0
得分:
83.1
发布时间:
2024-03-04
参数规模(亿):
0.0