DocVQA：文档视觉问答基准详解

DocVQA是一个针对文档图像的视觉问答基准数据集。该数据集包含50,000个问题，这些问题基于12,767张文档图像构建而成。数据集旨在评估模型在提取和理解文档内容方面的能力，特别是当问题涉及布局、表格和文本时。基准通过提供标注的问答对，支持模型在真实文档场景下的测试。

基准面临的挑战

DocVQA在评估过程中遇到多项挑战。这些挑战源于文档的多样性和复杂性。首先，文档结构包括表单、表格、图表和手写文本，导致模型需要同时处理OCR提取和布局解析。其次，OCR错误会影响答案的精确性，尤其在扫描图像中。第三，语言偏差存在于问题设计中，一些问题依赖特定词汇或上下文，导致模型泛化能力受限。此外，多页文档的处理增加了计算负担，现有方法往往在跨页推理上表现不足。最后，评估指标虽考虑了编辑距离，但仍难以完全捕捉语义相似性。

基准背景与目标

DocVQA基准于2020年发布，作为ICDAR 2020挑战的一部分。该基准由Minesh Mathew、Dimosthenis Karatzas和C.V. Jawahar等人开发，并发表于WACV 2021会议。数据集图像来源于UCSF Industry Documents Library，涵盖从1900年至2018年的行业文档，包括烟草、食品、药品和化学生产领域的信件、报告和合同。

基准的目标是解决文档视觉问答问题，即给定文档图像和自然语言问题，生成基于图像内容的文本答案。该问题要求模型整合视觉信息、文本识别和推理能力，以支持实际应用如信息提取和文档自动化处理。相比传统VQA数据集，DocVQA强调文档特有的结构化元素，如页码、标题和数值汇总。

任务设计与评估流程

DocVQA包括两个主要任务：任务1针对单页文档图像，任务2扩展到多页文档。数据集总计50,000个问答对，按80-10-10比例分为训练集（39,463个问题，10,194张图像）、验证集（5,349个问题，1,286张图像）和测试集（5,188个问题，1,287张图像）。问题类型分为9类，包括手写文本、表单、布局、表格/列表、运行文本、照片、图表、其他和是/否。

评估流程采用两步：首先，使用商业OCR工具提取图像文本；其次，模型生成答案。评估指标为平均归一化Levenshtein相似度（ANLS），该指标计算预测答案与地面真相之间的编辑距离，并归一化为0到1之间的分数，以处理OCR引起的细微差异。辅助指标为准确率（Acc.），要求精确匹配。人类性能在测试集上达到0.981 ANLS和94.36%准确率。

以下表格总结了数据集的关键统计：

方面	细节
总问题数	50,000
总图像数	12,767
平均问题长度	8.12词
平均答案长度	2.17词
问题类型数	9
评估指标	ANLS (主要)，Acc. (辅助)

基线方法包括启发式（如随机答案或多数投票）和深度模型（如BERT QA和M4C VQA）。例如，BERT-large在验证集上达到0.665 ANLS。

大模型性能与观察

截至2025年，多个视觉语言大模型（VLM）在DocVQA测试集上提交结果。排行榜显示，顶级模型接近人类性能，但仍存在差距。以下表格列出部分主流模型的ANLS分数（基于2025年公开数据）：

模型名称	ANLS分数	提交日期	备注
人类基准	0.981	-	志愿者标注
LayoutLMv3	0.905	2022	布局感知Transformer
Qwen2-VL	0.856	2025	多模态大语言模型
GPT-4V	0.840	2024	通用VLM
WUKONG-READER	0.800	2024	阅读专注模型
M4C (基线)	0.391	2020	早期多模态模型

观察显示，大模型在表单和布局问题上表现较好，ANLS超过0.80，但图表和照片类别分数较低，约为0.40-0.50。这反映出模型在视觉密集任务中的局限。2025年更新中，检索增强生成（RAG）方法提升了多页性能，例如在MP-DocVQA变体上提高13.2 ANLS。总体上，VLM通过预训练减少了从零开始的差距，但跨域泛化仍需改进。

结语

DocVQA基准为文档理解研究提供了标准化框架，推动了从OCR到推理的集成发展。尽管大模型性能持续提升，该基准突显了文档复杂性的持续需求。未来扩展可包括多语言支持和动态文档，以覆盖更多应用场景。研究者可通过docvqa.org访问数据集和排行榜，继续贡献改进。

基准面临的挑战

基准背景与目标

任务设计与评估流程

大模型性能与观察

结语

DataLearner WeChat