DocVQA 评测基准详情

Name: Document Visual Question Answering
Creator: 个人

DocVQA是一个针对文档图像的视觉问答基准数据集。该数据集包含50,000个问题，这些问题基于12,767张文档图像构建而成。数据集旨在评估模型在提取和理解文档内容方面的能力，特别是当问题涉及布局、表格和文本时。基准通过提供标注的问答对，支持模型在真实文档场景下的测试。

更新2025-10-19

问题数量

50000

发布机构

个人

评测类别

多模态理解

评测指标

Accuracy

支持语言

英文

难度等级

中等难度

DocVQA是一个针对文档图像的视觉问答基准数据集。

DocVQA 大模型得分排行榜

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模式说明:

normal

thinking

low

medium

high

deeper thinking

parallel_thinking

图表加载中...

当前榜单暂无并行思考结果

排名	模型
1	Qwen2.5-VL-72B-Instructdefault	96.4	2025-01-28	720
2	Qwen3-VL-8B-Instructdefault	96.1	2025-10-15	88
3	Qwen3-VL-4B-Instructdefault	95.3	2025-10-15	40
4	Gemini 2.5 Flash-Lite-Preview-09-2025default	92	2025-09-25	未知
5	GPT-5-Nanodefault	78.3	2025-08-07	未知