QUICK REVIEW

[논문 리뷰] Up to 36x Speedup: Mask-based Parallel Inference Paradigm for Key Information Extraction in MLLMs

Xinzhong Wang, Ya Guo|arXiv (Cornell University)|2026. 01. 27.

Advanced Text Analysis Techniques인용 수 0

한 줄 요약

본 논문은 VrDs의 KIE를 위한 마스크 기반 병렬 추론 패러다임 PIP를 제안한다. 대상 값을 [mask] 토큰으로 대체하여 동시 토큰 생성을 가능하게 하고, 이로써 정확도 손실은 거의 없다고 할 정도의 미미한 수준으로 유지되며 5–36배 더 빠른 추론을 달성한다.

ABSTRACT

Key Information Extraction (KIE) from visually-rich documents (VrDs) is a critical task, for which recent Large Language Models (LLMs) and Multi-Modal Large Language Models (MLLMs) have demonstrated strong potential. However, their reliance on autoregressive inference, which generates outputs sequentially, creates a significant efficiency bottleneck, especially as KIE tasks often involve extracting multiple, semantically independent fields. To overcome this limitation, we introduce PIP: a Parallel Inference Paradigm for KIE. Our approach reformulates the problem by using "[mask]" tokens as placeholders for all target values, enabling their simultaneous generation in a single forward pass. To facilitate this paradigm, we develop a tailored mask pre-training strategy and construct large-scale supervised datasets. Experimental results show that our PIP-models achieve a 5-36x inference speedup with negligible performance degradation compared to traditional autoregressive base models. By substantially improving efficiency while maintaining high accuracy, PIP paves the way for scalable and practical real-world KIE solutions.

연구 동기 및 목표

VrDs의 KIE에서 자기회귀 추론의 비효율성을 동기 부여하고 해결한다.
마스크 기반 병렬 디코딩 패러다임(PIP)을 도입하여 다수의 핵심 필드를 동시에 추출할 수 있도록 한다.
병렬 디코딩을 가능하게 하는 두 단계 학습 파이프라인(마스크 사전학습 및 KV 지도형 파인튜닝)을 개발한다.
PIP가 벤치마크 데이터셋 전반에서 상당한 속도 향상(5–36×)을 달성하고 정확도도 경쟁력 있거나 개선됨을 보여준다.

제안 방법

타깃 값을 [mask] 토큰으로 교체하여 단일 순전파에서 병렬 디코딩이 가능하게 KIE를 재구성한다.
마스크 사전학습 시 양방향 주의(attention)를 사용하여 예측의 맥락을 학습하고 인과적 주의(causal attention)를 대체한다.
대규모 이미지-캡션 데이터셋(13M 이미지)에서 병렬 추론을 학습하기 위해 사전학습한다.
사람의 개입 검증을 통한 KV 감독 파인튜닝으로 환각을 줄이고 KV 감독 학습을 가능하게 하는 큐레이션된 KV 추출 데이터셋에서 파인튠한다.
출력 필드에 해당하는 이미지 영역에 토큰이 주목하는 것을 보이도록 주의(attention)를 시각화한다.
속도향상과 정확도를 입증하기 위해 여러 기본 모델 및 데이터셋에서 평가한다.

실험 결과

연구 질문

RQ1마스크링된 타깃 출력과 병렬 디코딩이 KIE의 추론 지연을 줄이면서 정확도를 손상시키지 못하는가?
RQ2KV 감독 파인튜닝과 함께한 마스크 사전학습이 VrD KIE를 위한 MLLMs에서 효과적인 병렬 디코딩을 어떻게 가능하게 하는가?
RQ3FUNSD, SROIE, CORD, POIE, WildReceipt와 같은 표준 KIE 벤치마크에서 어떤 속도 향상과 정확도 트레이드오프를 달성할 수 있는가?
RQ4PIP 패러다임이 서로 다른 기본 모델 아키텍처와 규모에서도 robust한가?

주요 결과

PIP는 자기회귀 기준선과 비교하여 성능 저하 없이 5–36×의 추론 속도 향상을 달성한다.
KV 감독 파인튜닝과 결합하면 SROIE 및 CORD에서 SOTA를 크게 상회하는 성능 향상을 보이며(예: PIP-Qwen2-VL-7B는 SROIE에서 ANLS 97.0, CORD에서 97.3), SOTA를 달성하거나 근접하다.
양방향 주의가 있는 마스크 사전학습은 MLLMs에서 KIE를 위한 효과적인 병렬 디코딩을 가능하게 한다.
이 방법은 FUNSD, SROIE, CORD, POIE, WildReceipt 전반에서 경쟁력 있는 정확도를 유지하면서도 지연 시간을 대폭 감소시킨다.
메모리 오버헤드는 입력 길이가 최대 약 30% 증가하는 수준으로 제한되며 처리량은 크게 개선된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.