Skip to main content
QUICK REVIEW

[論文レビュー] IDP Accelerator: Agentic Document Intelligence from Extraction to Compliance Validation

Md Mofijul Islam, Md Sirajus Salekin|arXiv (Cornell University)|Feb 26, 2026
Topic Modeling被引用数 0
ひとこと要約

IDP Acceleratorはオープンソースのモジュラーなフレームワークで、マルチモーダル抽出から遵守検証までのエンドツーエンドのドキュメント処理を実現するエージェント型AIを提供する。生産 ready なクラウドネイティブアーキテクチャとHITL機能を備える。

ABSTRACT

Understanding and extracting structured insights from unstructured documents remains a foundational challenge in industrial NLP. While Large Language Models (LLMs) enable zero-shot extraction, traditional pipelines often fail to handle multi-document packets, complex reasoning, and strict compliance requirements. We present IDP (Intelligent Document Processing) Accelerator, a framework enabling agentic AI for end-to-end document intelligence with four key components: (1) DocSplit, a novel benchmark dataset and multimodal classifier using BIO tagging to segment complex document packets; (2) configurable Extraction Module leveraging multimodal LLMs to transform unstructured content into structured data; (3) Agentic Analytics Module, compliant with the Model Context Protocol (MCP) providing data access through secure, sandboxed code execution; and (4) Rule Validation Module replacing deterministic engines with LLM-driven logic for complex compliance checks. The interactive demonstration enables users to upload document packets, visualize classification results, and explore extracted data through an intuitive web interface. We demonstrate effectiveness across industries, highlighting a production deployment at a leading healthcare provider achieving 98% classification accuracy, 80% reduced processing latency, and 77% lower operational costs over legacy baselines. IDP Accelerator is open-sourced with a live demonstration available to the community.

研究の動機と目的

  • 産業規模の設定における従来のテンプレートベースのドキュメント処理の非効率を解消する。
  • 複数文書パケットをセグメント化し構造化データを抽出できるモジュラーで生産 ready なフレームワークを提供する。
  • 処理済みドキュメント上で自然言語クエリと分析を安全なMCP対応インターフェースを介して実行できる。
  • 複雑なコンプライアンス検証を扱うためのLLM駆動のルール検証を統合する。

提案手法

  • BIOタグ付けを用いたマルチモーダル文書パケットのセグメンテーション(DocSplit)。
  • ユーザー定義スキーマへ内容をマッピングするためのモノモーダルLLMを活用した抽出モジュールの設定可能な構築。
  • リトリーバル拡張生成とMCP統合を備えたエージェント型分析モジュール(企業データアクセス用)。
  • 複雑で構成可能なコンプライアンス検証のためのLLM駆動のルール検証モジュール。
  • HITLを組み込んだ迅速な実験と反復のためのテストスタジオとCLIツール。

実験結果

リサーチクエスチョン

  • RQ1マルチドキュメントパケットをどのように効果的にセグメント化・分類して下流の抽出を可能にするか。
  • RQ2異なるモダリティ間での構造化情報抽出にマルチモーダルLLMを用いた場合の精度・遅延・コストのトレードオフはどうなるか。
  • RQ3エージェント型分析レイヤーは処理済みドキュメントに対して意味のある自然言語クエリを提供しつつセキュリティとガバナンスを維持できるか。
  • RQ4LLM駆動のルール検証はエンタープライズのコンプライアンス検証において従来のルールエンジンに匹敵するか、またはそれを上回るか。

主な発見

ModelOCRImageExtraction ScoreLatencyCostFailed
Claude Sonnet 4.50.79142m 4s$5.560
Claude Sonnet 4.50.72951m 47s$5.490
Claude Sonnet 4.50.79911m 53s$7.180
Claude Opus 4.50.77822m 20s$7.280
Claude Opus 4.50.78602m 17s$7.710
Claude Opus 4.50.78042m 3s$10.260
Claude Haiku 4.50.75541m 31s$2.831
Claude Haiku 4.50.66801m 33s$2.820
Claude Haiku 4.50.77821m 37s$3.391
Qwen3-VL0.76502m 41s$2.080
Qwen3-VL0.7450200m 8s$1.714
Qwen3-VL0.78053m 1s$1.904
Gemma-30.76363m 14s$1.640
Gemma-30.5359200m 17s$1.365
Gemma-30.76942m 47s$1.354
  • 本番導入は産業全体で高い精度と大幅な効率化を示している(例:医療分野で98%の精度、80%のレイテンシ削減、77%のコスト削減)。
  • OCR+画像入力を含むマルチモーダルモデルは、画像のみまたはOCRのみの構成より一般に優れた抽出スコアと大規模モデルでの遅延低減を示す。
  • オープンソースモデルはコスト上の利点を提供する一方で画像入力で遅延や失敗率が高くなる可能性があり、構造化出力の強制の価値を強調している。
  • DocSplitと評価フレームワーク(DocSplit BenchmarkとStickler)は抽出と分割品質の実地評価を厳密に可能にする。
  • RAGベースの分析とMCP統合の組み合わせは、下流アプリケーション向けのドキュメントデータへの拡張可能で安全なアクセスを促進する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。