[논문 리뷰] Up to 36x Speedup: Mask-based Parallel Inference Paradigm for Key Information Extraction in MLLMs
본 논문은 VrDs의 KIE를 위한 마스크 기반 병렬 추론 패러다임 PIP를 제안한다. 대상 값을 [mask] 토큰으로 대체하여 동시 토큰 생성을 가능하게 하고, 이로써 정확도 손실은 거의 없다고 할 정도의 미미한 수준으로 유지되며 5–36배 더 빠른 추론을 달성한다.
Key Information Extraction (KIE) from visually-rich documents (VrDs) is a critical task, for which recent Large Language Models (LLMs) and Multi-Modal Large Language Models (MLLMs) have demonstrated strong potential. However, their reliance on autoregressive inference, which generates outputs sequentially, creates a significant efficiency bottleneck, especially as KIE tasks often involve extracting multiple, semantically independent fields. To overcome this limitation, we introduce PIP: a Parallel Inference Paradigm for KIE. Our approach reformulates the problem by using "[mask]" tokens as placeholders for all target values, enabling their simultaneous generation in a single forward pass. To facilitate this paradigm, we develop a tailored mask pre-training strategy and construct large-scale supervised datasets. Experimental results show that our PIP-models achieve a 5-36x inference speedup with negligible performance degradation compared to traditional autoregressive base models. By substantially improving efficiency while maintaining high accuracy, PIP paves the way for scalable and practical real-world KIE solutions.
연구 동기 및 목표
- VrDs의 KIE에서 자기회귀 추론의 비효율성을 동기 부여하고 해결한다.
- 마스크 기반 병렬 디코딩 패러다임(PIP)을 도입하여 다수의 핵심 필드를 동시에 추출할 수 있도록 한다.
- 병렬 디코딩을 가능하게 하는 두 단계 학습 파이프라인(마스크 사전학습 및 KV 지도형 파인튜닝)을 개발한다.
- PIP가 벤치마크 데이터셋 전반에서 상당한 속도 향상(5–36×)을 달성하고 정확도도 경쟁력 있거나 개선됨을 보여준다.
제안 방법
- 타깃 값을 [mask] 토큰으로 교체하여 단일 순전파에서 병렬 디코딩이 가능하게 KIE를 재구성한다.
- 마스크 사전학습 시 양방향 주의(attention)를 사용하여 예측의 맥락을 학습하고 인과적 주의(causal attention)를 대체한다.
- 대규모 이미지-캡션 데이터셋(13M 이미지)에서 병렬 추론을 학습하기 위해 사전학습한다.
- 사람의 개입 검증을 통한 KV 감독 파인튜닝으로 환각을 줄이고 KV 감독 학습을 가능하게 하는 큐레이션된 KV 추출 데이터셋에서 파인튠한다.
- 출력 필드에 해당하는 이미지 영역에 토큰이 주목하는 것을 보이도록 주의(attention)를 시각화한다.
- 속도향상과 정확도를 입증하기 위해 여러 기본 모델 및 데이터셋에서 평가한다.
실험 결과
연구 질문
- RQ1마스크링된 타깃 출력과 병렬 디코딩이 KIE의 추론 지연을 줄이면서 정확도를 손상시키지 못하는가?
- RQ2KV 감독 파인튜닝과 함께한 마스크 사전학습이 VrD KIE를 위한 MLLMs에서 효과적인 병렬 디코딩을 어떻게 가능하게 하는가?
- RQ3FUNSD, SROIE, CORD, POIE, WildReceipt와 같은 표준 KIE 벤치마크에서 어떤 속도 향상과 정확도 트레이드오프를 달성할 수 있는가?
- RQ4PIP 패러다임이 서로 다른 기본 모델 아키텍처와 규모에서도 robust한가?
주요 결과
- PIP는 자기회귀 기준선과 비교하여 성능 저하 없이 5–36×의 추론 속도 향상을 달성한다.
- KV 감독 파인튜닝과 결합하면 SROIE 및 CORD에서 SOTA를 크게 상회하는 성능 향상을 보이며(예: PIP-Qwen2-VL-7B는 SROIE에서 ANLS 97.0, CORD에서 97.3), SOTA를 달성하거나 근접하다.
- 양방향 주의가 있는 마스크 사전학습은 MLLMs에서 KIE를 위한 효과적인 병렬 디코딩을 가능하게 한다.
- 이 방법은 FUNSD, SROIE, CORD, POIE, WildReceipt 전반에서 경쟁력 있는 정확도를 유지하면서도 지연 시간을 대폭 감소시킨다.
- 메모리 오버헤드는 입력 길이가 최대 약 30% 증가하는 수준으로 제한되며 처리량은 크게 개선된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.