QUICK REVIEW

[論文レビュー] IDP Accelerator: Agentic Document Intelligence from Extraction to Compliance Validation

Md Mofijul Islam, Md Sirajus Salekin|arXiv (Cornell University)|Feb 26, 2026

Topic Modeling被引用数 0

ひとこと要約

IDP Acceleratorはオープンソースのモジュラーなフレームワークで、マルチモーダル抽出から遵守検証までのエンドツーエンドのドキュメント処理を実現するエージェント型AIを提供する。生産 ready なクラウドネイティブアーキテクチャとHITL機能を備える。

ABSTRACT

Understanding and extracting structured insights from unstructured documents remains a foundational challenge in industrial NLP. While Large Language Models (LLMs) enable zero-shot extraction, traditional pipelines often fail to handle multi-document packets, complex reasoning, and strict compliance requirements. We present IDP (Intelligent Document Processing) Accelerator, a framework enabling agentic AI for end-to-end document intelligence with four key components: (1) DocSplit, a novel benchmark dataset and multimodal classifier using BIO tagging to segment complex document packets; (2) configurable Extraction Module leveraging multimodal LLMs to transform unstructured content into structured data; (3) Agentic Analytics Module, compliant with the Model Context Protocol (MCP) providing data access through secure, sandboxed code execution; and (4) Rule Validation Module replacing deterministic engines with LLM-driven logic for complex compliance checks. The interactive demonstration enables users to upload document packets, visualize classification results, and explore extracted data through an intuitive web interface. We demonstrate effectiveness across industries, highlighting a production deployment at a leading healthcare provider achieving 98% classification accuracy, 80% reduced processing latency, and 77% lower operational costs over legacy baselines. IDP Accelerator is open-sourced with a live demonstration available to the community.

研究の動機と目的

産業規模の設定における従来のテンプレートベースのドキュメント処理の非効率を解消する。
複数文書パケットをセグメント化し構造化データを抽出できるモジュラーで生産 ready なフレームワークを提供する。
処理済みドキュメント上で自然言語クエリと分析を安全なMCP対応インターフェースを介して実行できる。
複雑なコンプライアンス検証を扱うためのLLM駆動のルール検証を統合する。

提案手法

BIOタグ付けを用いたマルチモーダル文書パケットのセグメンテーション（DocSplit）。
ユーザー定義スキーマへ内容をマッピングするためのモノモーダルLLMを活用した抽出モジュールの設定可能な構築。
リトリーバル拡張生成とMCP統合を備えたエージェント型分析モジュール（企業データアクセス用）。
複雑で構成可能なコンプライアンス検証のためのLLM駆動のルール検証モジュール。
HITLを組み込んだ迅速な実験と反復のためのテストスタジオとCLIツール。

実験結果

リサーチクエスチョン

RQ1マルチドキュメントパケットをどのように効果的にセグメント化・分類して下流の抽出を可能にするか。
RQ2異なるモダリティ間での構造化情報抽出にマルチモーダルLLMを用いた場合の精度・遅延・コストのトレードオフはどうなるか。
RQ3エージェント型分析レイヤーは処理済みドキュメントに対して意味のある自然言語クエリを提供しつつセキュリティとガバナンスを維持できるか。
RQ4LLM駆動のルール検証はエンタープライズのコンプライアンス検証において従来のルールエンジンに匹敵するか、またはそれを上回るか。

主な発見

Model	OCR	Image	Extraction Score	Latency	Cost	Failed
Claude Sonnet 4.5	✓	✗	0.7914	2m 4s	$5.56	0
Claude Sonnet 4.5	✗	✓	0.7295	1m 47s	$5.49	0
Claude Sonnet 4.5	✓	✓	0.7991	1m 53s	$7.18	0
Claude Opus 4.5	✓	✗	0.7782	2m 20s	$7.28	0
Claude Opus 4.5	✗	✓	0.7860	2m 17s	$7.71	0
Claude Opus 4.5	✓	✓	0.7804	2m 3s	$10.26	0
Claude Haiku 4.5	✓	✗	0.7554	1m 31s	$2.83	1
Claude Haiku 4.5	✗	✓	0.6680	1m 33s	$2.82	0
Claude Haiku 4.5	✓	✓	0.7782	1m 37s	$3.39	1
Qwen3-VL	✓	✗	0.7650	2m 41s	$2.08	0
Qwen3-VL	✗	✓	0.7450	200m 8s	$1.71	4
Qwen3-VL	✓	✓	0.7805	3m 1s	$1.90	4
Gemma-3	✓	✗	0.7636	3m 14s	$1.64	0
Gemma-3	✗	✓	0.5359	200m 17s	$1.36	5
Gemma-3	✓	✓	0.7694	2m 47s	$1.35	4

本番導入は産業全体で高い精度と大幅な効率化を示している（例：医療分野で98%の精度、80%のレイテンシ削減、77%のコスト削減）。
OCR+画像入力を含むマルチモーダルモデルは、画像のみまたはOCRのみの構成より一般に優れた抽出スコアと大規模モデルでの遅延低減を示す。
オープンソースモデルはコスト上の利点を提供する一方で画像入力で遅延や失敗率が高くなる可能性があり、構造化出力の強制の価値を強調している。
DocSplitと評価フレームワーク（DocSplit BenchmarkとStickler）は抽出と分割品質の実地評価を厳密に可能にする。
RAGベースの分析とMCP統合の組み合わせは、下流アプリケーション向けのドキュメントデータへの拡張可能で安全なアクセスを促進する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。