QUICK REVIEW

[논문 리뷰] IDP Accelerator: Agentic Document Intelligence from Extraction to Compliance Validation

Md Mofijul Islam, Md Sirajus Salekin|arXiv (Cornell University)|2026. 02. 26.

Topic Modeling인용 수 0

한 줄 요약

IDP Accelerator는 멀티모달 추출에서 컴플라이언스 검증에 이르기까지 엔드투엔드 문서 처리를 가능하게 하는 오픈 소스 모듈형 프레이워크로, 생산 준비가 된 클라우드 네이티브 아키텍처와 HITL 기능을 갖추고 있습니다.

ABSTRACT

Understanding and extracting structured insights from unstructured documents remains a foundational challenge in industrial NLP. While Large Language Models (LLMs) enable zero-shot extraction, traditional pipelines often fail to handle multi-document packets, complex reasoning, and strict compliance requirements. We present IDP (Intelligent Document Processing) Accelerator, a framework enabling agentic AI for end-to-end document intelligence with four key components: (1) DocSplit, a novel benchmark dataset and multimodal classifier using BIO tagging to segment complex document packets; (2) configurable Extraction Module leveraging multimodal LLMs to transform unstructured content into structured data; (3) Agentic Analytics Module, compliant with the Model Context Protocol (MCP) providing data access through secure, sandboxed code execution; and (4) Rule Validation Module replacing deterministic engines with LLM-driven logic for complex compliance checks. The interactive demonstration enables users to upload document packets, visualize classification results, and explore extracted data through an intuitive web interface. We demonstrate effectiveness across industries, highlighting a production deployment at a leading healthcare provider achieving 98% classification accuracy, 80% reduced processing latency, and 77% lower operational costs over legacy baselines. IDP Accelerator is open-sourced with a live demonstration available to the community.

연구 동기 및 목표

산업 규모 설정에서의 기존 템플릿 기반 문서 처리의 비효율성을 해결한다.
다중 문서 묶음을 분절하고 구조화된 데이터를 추출할 수 있는 모듈형, 생산 준비된 프레임워크를 제공한다.
처리된 문서에 대해 안전한 MCP-enabled 인터페이스를 통해 자연어 질의 및 분석을 가능하게 한다.
LLM 주도 규칙 검증을 통합하여 결정론적 엔진을 넘어서는 복잡한 컴플라이언스 체크를 다룬다.

제안 방법

BIO 태깅을 이용한 다중 모달 문서 패킷 분할을 위한 DocSplit.
사용자 정의 스키마에 콘텐츠를 매핑하기 위한 다중 모달 LLM을 활용한 구성 가능한 추출 모듈.
리트리벌 보강 생성과 MCP 통합을 통한 엔터프라이즈 데이터 접근을 제공하는 에이전트형 분석 모듈.
복잡하고 구성 가능한 컴플라이언스 체크를 위한 LLM 주도 규칙 검증 모듈.
빠른 실험과 반복을 위한 HITL 내장된 테스트 스튜디오 및 CLI 도구.

실험 결과

연구 질문

RQ1다중 문서 패킷을 어떻게 효과적으로 분절하고 분류하여 다운스트림 추출을 가능하게 할 수 있는가?
RQ2다양한 모달리티에서 구조화된 정보 추출을 위해 다중 모달 LLM을 사용할 때 정확도, 지연, 비용의 트레이드오프는 어떠한가?
RQ3에이전트형 분석 계층이 처리된 문서에 대해 의미 있는 자연어 질의를 제공하면서 보안과 거버넌스를 유지할 수 있는가?
RQ4LLM 주도 규칙 검증이 엔터프라이즈 컴플라이언스 체크를 위해 기존 규칙 엔진과 견주어 어느 정도까지 일치하거나 능가할 수 있는가?

주요 결과

모델	OCR	이미지	추출 점수	지연	비용	실패
Claude Sonnet 4.5	✓	✗	0.7914	2m 4s	$5.56	0
Claude Sonnet 4.5	✗	✓	0.7295	1m 47s	$5.49	0
Claude Sonnet 4.5	✓	✓	0.7991	1m 53s	$7.18	0
Claude Opus 4.5	✓	✗	0.7782	2m 20s	$7.28	0
Claude Opus 4.5	✗	✓	0.7860	2m 17s	$7.71	0
Claude Opus 4.5	✓	✓	0.7804	2m 3s	$10.26	0
Claude Haiku 4.5	✓	✗	0.7554	1m 31s	$2.83	1
Claude Haiku 4.5	✗	✓	0.6680	1m 33s	$2.82	0
Claude Haiku 4.5	✓	✓	0.7782	1m 37s	$3.39	1
Qwen3-VL	✓	✗	0.7650	2m 41s	$2.08	0
Qwen3-VL	✗	✓	0.7450	200m 8s	$1.71	4
Qwen3-VL	✓	✓	0.7805	3m 1s	$1.90	4
Gemma-3	✓	✗	0.7636	3m 14s	$1.64	0
Gemma-3	✗	✓	0.5359	200m 17s	$1.36	5
Gemma-3	✓	✓	0.7694	2m 47s	$1.35	4

프로덕션 배포는 산업 전반에서 높은 정확도와 상당한 효율성 향상을 보여준다(예: 의료 분야에서 98% 정확도, 80% 지연 감소, 77% 비용 감소).
OCR+이미지 입력이 있는 다중 모달 모델은 일반적으로 이미지 전용 또는 OCR만 구성보다 우수한 성능을 보이며, 더 큰 모델에서 추출 점수가 높고 지연이 감소한다.
오픈 소스 모델은 비용 측면에서 이점이 있지만 이미지 입력에서 더 높은 지연이나 실패율을 보일 수 있어 구조화된 출력 강제의 가치가 강조된다.
DocSplit 및 평가 프레임워크(DocSplit 벤치마크 및 Stickler)는 추출 및 분할 품질을 현장 수준에서 엄격하게 평가할 수 있게 한다.
RAG 기반 분석과 MCP 통합의 조합은 다운스트림 애플리케이션을 위한 문서 데이터에 대해 확장 가능하고 안전한 접근을 촉진한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.