[论文解读] DISCO: Document Intelligence Suite for COmparative Evaluation
DISCO 提出在文档解析与问答中对 OCR 管道与视觉语言模型(VLMs)进行诊断性、分阶段评估,揭示两大范式在不同文档类型和提示策略下的强项,并引导选择。
Document intelligence requires accurate text extraction and reliable reasoning over document content. We introduce extbf{DISCO}, a \emph{Document Intelligence Suite for COmparative Evaluation}, that evaluates optical character recognition (OCR) pipelines and vision-language models (VLMs) separately on parsing and question answering across diverse document types, including handwritten text, multilingual scripts, medical forms, infographics, and multi-page documents. Our evaluation shows that performance varies substantially across tasks and document characteristics, underscoring the need for complexity-aware approach selection. OCR pipelines are generally more reliable for handwriting and for long or multi-page documents, where explicit text grounding supports text-heavy reasoning, while VLMs perform better on multilingual text and visually rich layouts. Task-aware prompting yields mixed effects, improving performance on some document types while degrading it on others. These findings provide empirical guidance for selecting document processing strategies based on document structure and reasoning demands.
研究动机与目标
- 在复杂性感知的前提下,在 OCR 基于解析与端到端 VLMs 之间为多样化文档进行选择。
- 提供一个分阶段评估框架,将解析与问答区分开来,以诊断错误来源。
- 在多个数据集基准 OCR 与 VLM 方法,研究文档结构与布局对性能的影响。
- 评估面向任务的提示对不同文档类型的解析与问答性能的影响。
- 为基于文档特征的处理策略选择提供实用建议。
提出的方法
- 定义一个两阶段评估协议,分别分析文本解析与下游问答。
- 在各数据集上使用确定性解码和固定图像分辨率对 OCR 管道与 VLMs 进行比较。
- 使用三种解析指标(CER、WER、CS)和三种问答指标(GT-in-Pred、ANLS、EM)来评估每种管道变体。
- 在通用、基础、以及面向任务的提示下,比较 OCR(azure-ai-documentintelligence、mistral-ocr-2505)与 VLMs(gpt-5-mini、gpt-5-nano、claude-3-5-sonnet)在解析任务上的表现。
- 在三种策略下评估 QA:基于 OCR 的解析再问答、VLM 解析后回答,以及直接 VLM 问答,在不同提示 regime 下进行比较。
- 通过整合 IAM、ICDAR、PubLayNet、RxPad 的解析任务与 DocVQA、InfographicVQA、DUDE、ChartQAPro 派生的 QA 任务,构建一个 DISCO 基准;为可行性保留子 500 样本数据集。
实验结果
研究问题
- RQ1 OCR 基于解析与端到端 VLM 在文本提取质量方面在 handwriting、 multilingual 文本、医疗表单上有何差异?
- RQ2文档结构(长/多页 vs. 视觉丰富、信息图)如何影响 OCR 与 VLM 方法的相对强项?
- RQ3面向任务的提示对解析与 QA 性能在不同文档类型上有何影响?
- RQ4直接 VQA(无显式文本提取)是否在 QA 任务上优于解析后再回答的流水线,在哪些条件下?
- RQ5单页与多页文档在 OCR 与 VLM 管道中的性能差异如何?
主要发现
| 数据集/任务 | P_OCR CER | P_VLM-base CER | P_VLM-task CER | QA_OCR GT-in-Pred | QA_VLM-2stage GT-in-Pred | QA_VLM-direct GT-in-Pred |
|---|---|---|---|---|---|---|
| IAM_DISCO Parsing | 0.087 | 0.171 | 0.080 | - | - | - |
| ICDAR_DISCO Parsing | 0.553 | 0.213 | 0.073 | - | - | - |
| RxPad Parsing | 0.654 | 0.660 | 0.659 | - | - | - |
| DocVQA_DISCO QA | - | - | - | 0.876 | 0.896 | 0.908 |
| InfographicVQA_DISCO QA | - | - | - | 0.754 | 0.711 | 0.785 |
| DUDE_DISCO QA | - | - | - | 0.562 | 0.555 | 0.498 |
- OCR 基于管道在书法与长篇/多页文档上通常更可靠;VLM 在多语种文本与视觉丰富布局上表现出色。
- 面向任务的提示对结果影响呈异质性:在某些数据集上有提升,但在如医疗处方等挑战域上的收益有限。
- 对于单页文档,直接 VQA 有时可超过解析再回答的流水线,表明在布局关键时可能会有信息丢失的中间文本提取。
- 在 DocVQA 上,直接 VQA 的 GT-in-Pred 分数最高(0.908),高于基于 OCR 的(0.876)和解析后再回答(0.896)。
- 在 InfographicVQA 上,直接 VQA 在 GT-in-Pred 上优于其他方法,但 ANLS/EM 表现较弱,表明输出较冗长或格式不规范。
- 在 DUDE 数据集上,OCR 基于解析仍具竞争力,而直接 VQA 因上下文较长而表现不佳;Azure 的 OCR 在所有 QA 管道中均优于 mistral-ocr。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。