QUICK REVIEW

[論文レビュー] DISCO: Document Intelligence Suite for COmparative Evaluation

Kenza Benkirane, Dan Goldwater|arXiv (Cornell University)|Mar 4, 2026

Handwritten Text Recognition Techniques被引用数 0

ひとこと要約

DISCOは文書解析と質問応答のためのOCRパイプラインと視覚言語モデル（VLM）を比較する診断的・段階的評価を提案し、さまざまな文書タイプとプロンプト戦略において各パラダイムが得意とする場面を明らかにし、適切な戦略を促す。

ABSTRACT

Document intelligence requires accurate text extraction and reliable reasoning over document content. We introduce \textbf{DISCO}, a \emph{Document Intelligence Suite for COmparative Evaluation}, that evaluates optical character recognition (OCR) pipelines and vision-language models (VLMs) separately on parsing and question answering across diverse document types, including handwritten text, multilingual scripts, medical forms, infographics, and multi-page documents. Our evaluation shows that performance varies substantially across tasks and document characteristics, underscoring the need for complexity-aware approach selection. OCR pipelines are generally more reliable for handwriting and for long or multi-page documents, where explicit text grounding supports text-heavy reasoning, while VLMs perform better on multilingual text and visually rich layouts. Task-aware prompting yields mixed effects, improving performance on some document types while degrading it on others. These findings provide empirical guidance for selecting document processing strategies based on document structure and reasoning demands.

研究の動機と目的

OCRベースの解析とエンドツーエンドのVLMの多様な文書に対する複雑さを意識した選択を動機づける。
解析とQAを分離する段階的評価フレームワークを提供し、エラー源の診断を行う。
文書構造とレイアウトが性能に及ぼす影響を調べるため、複数データセットでOCRとVLMアプローチをベンチマークする。
文書タイプ全般における解析とQAの性能へ影響を与えるタスク認識プロンプトの影響を評価する。
文書特性に基づく文書処理戦略の選択に関する実用的ガイダンスを提供する。

提案手法

テキスト解析と下流QAを別々に分析する2段階評価プロトコルを定義する。
データセット間で決定的デコードと固定解像度を用いてOCRパイプラインとVLMを比較する。
3つの解析指標（CER, WER, CS）と3つのQA指標（GT-in-Pred, ANLS, EM）を用いて各パイプラインの変異を評価する。
一般・ベース・タスク認識プロンプトの下で、OCR（azure-ai-documentintelligence, mistral-ocr-2505）対VLM（gpt-5-mini, gpt-5-nano, claude-3-5-sonnet）を解析する。
3つの戦略：OCRベースの解析からQA、VLM解析→回答、直接VLM QAの各戦略を、さまざまな prompting regimeの下で評価する。
IAM, ICDAR, PubLayNet, RxPadを解析用に統合し、DocVQA, InfographicVQA, DUDE, ChartQAPro由来のQAタスクをDISCOベンチマークとして構築する；実現可能性のため500サンプル未満のサブセットを保持する。

実験結果

リサーチクエスチョン

RQ1手書き、多言語テキスト、医療フォームに対するテキスト抽出品質でOCRベースの解析とエンドツーエンドVLMはどう比較されるか？
RQ2長文・多ページ文書と視覚的にリッチなレイアウト（インフォグラフィック）において、OCRとVLMアプローチの相対的強みはどう影響を受けるか？
RQ3タスク認識プロンプトが解析とQA性能にどのように影響するか？
RQ4直接的なVQA（明示的なテキスト抽出なし）が、解析→回答パイプラインよりQAタスクで優れる条件はあるか？
RQ5OCRとVLMパイプラインにおいて、単一ページと複数ページの文書間で性能差はどう生じるか？

主な発見

Dataset / Task	P_OCR CER	P_VLM-base CER	P_VLM-task CER	QA_OCR GT-in-Pred	QA_VLM-2stage GT-in-Pred	QA_VLM-direct GT-in-Pred
IAM_DISCO Parsing	0.087	0.171	0.080	-	-	-
ICDAR_DISCO Parsing	0.553	0.213	0.073	-	-	-
RxPad Parsing	0.654	0.660	0.659	-	-	-
DocVQA_DISCO QA	-	-	-	0.876	0.896	0.908
InfographicVQA_DISCO QA	-	-	-	0.754	0.711	0.785
DUDE_DISCO QA	-	-	-	0.562	0.555	0.498

OCRベースのパイプラインは手書きと長尺・多ページ文書で一般的により信頼性が高い。一方、VLMは多言語テキストと視覚的にリッチなレイアウトで優れている。
タスク認識プロンプトはデータセットによって異なる影響を与え、医療用処方のような難しい領域では限定的な利得になる。
単一ページ文書では直接VQAが解析→回答パイプラインを上回る可能性があり、レイアウトが重要な場合に中間のテキスト抽出で情報損失が生じ得ることを示唆する。
DocVQAでは直接VQAがGT-in-Predで最高のスコア（0.908）を達成し、OCRベース（0.876）および解析→回答（0.896）を上回った。
InfographicVQAでは直接VQAがGT-in-Predで他を上回る一方、ANLS/EMは低く、出力が冗長または誤フォーマットとなる傾向を示す。
DUDEではOCRベースの解析が競争力を保つ一方、直接VQAは長い文脈の影響で劣る。AzureのOCRはmistral-ocrよりQAパイプライン全般で優位だった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。