[논문 리뷰] Boosting Document Parsing Efficiency and Performance with Coarse-to-Fine Visual Processing
PaddleOCR-VL은 정보를 담은 영역에 집중하기 위한 거친-정교한 프레임워크와 경량의 Valid Region Focus Module (VRFM), 그리고 간결한 비전-언어 모델을 도입하여 더 적은 비전 토큰과 파라미터로 문서 해석에서 SOTA를 달성합니다.
Document parsing is a fine-grained task where image resolution significantly impacts performance. While advanced research leveraging vision-language models benefits from high-resolution input to boost model performance, this often leads to a quadratic increase in the number of vision tokens and significantly raises computational costs. We attribute this inefficiency to substantial visual regions redundancy in document images, like background. To tackle this, we propose PaddleOCR-VL, a novel coarse-to-fine architecture that focuses on semantically relevant regions while suppressing redundant ones, thereby improving both efficiency and performance. Specifically, we introduce a lightweight Valid Region Focus Module (VRFM) which leverages localization and contextual relationship prediction capabilities to identify valid vision tokens. Subsequently, we design and train a compact yet powerful 0.9B vision-language model (PaddleOCR-VL-0.9B) to perform detailed recognition, guided by VRFM outputs to avoid direct processing of the entire large image. Extensive experiments demonstrate that PaddleOCR-VL achieves state-of-the-art performance in both page-level parsing and element-level recognition. It significantly outperforms existing solutions, exhibits strong competitiveness against top-tier VLMs, and delivers fast inference while utilizing substantially fewer vision tokens and parameters, highlighting the effectiveness of targeted coarse-to-fine parsing for accurate and efficient document understanding. The source code and models are publicly available at https://github.com/PaddlePaddle/PaddleOCR.
연구 동기 및 목표
- 고해상도 입력에서 시각 영역 중복 문제를 해결하여 효율적인 문서 해석을 촉진한다.
- 레이아웃 분석을 구성 요소 인식과 분리하는 두 단계 아키텍처를 제안한다.
- 세밀한 인식 전에 유효 영역과 읽기 순서를 식별하는 VRFM을 개발한다.
- 선택된 영역에서 정확한 인식을 수행하는 PaddleOCR-VL-0.9B를 구성한다.
- 감소된 계산 비용으로 다수의 벤치마크에서 SOTA 성능을 선보인다.
제안 방법
- PaddleOCR-VL을 소개한다. 인식 전에 중복된 배경 영역을 필터링하는 거친-정교한 프레임워크.
- RT-DETR과 포인터 네트워크를 기반으로 영역을 탐지하고 읽기 순서를 모델링하는 VRFM을 개발한다.
- 빠른 추론을 위한 NaViT 기반 인코더와 ERNIE-4.5-0.3B 언어 모델을 갖춘 소형 비전-언어 모델인 PaddleOCR-VL-0.9B를 만든다.
- 자동 주석 및 하드케이스 마이닝을 포함한 대규모, 다양한 데이터셋(30M+ samples)에서 VRFM과 PaddleOCR-VL-0.9B를 학습한다.
- Stage 1에서 정렬을 사전 학습하고, Stage 2에서 OCR, 표, 수식, 차트 작업에 대한 미세 조정을 수행하는 2단계 학습 방식: Stage 1 사전 학습; Stage 2 미세 조정.

실험 결과
연구 질문
- RQ1유효 시각 영역으로 계산을 제한하는 것이 엔드투엔드 문서 해석 정확도와 효율성에 어떤 영향을 미치는가?
- RQ2VRFM + 0.9B VLM으로 분리된 두 단계 아키텍처가 페이지 수준 및 요소 수준 작업에서 엔드-투-엔드 VLM을 능가할 수 있는가?
- RQ3원시 해상도 처리 및 영역 중심 인식이 지연 시간과 메모리 사용에 미치는 영향은?
- RQ4VRFM이 생성한 읽기 순서가 구조화된 문서를 재구성하는 데 있어 실제 정답 순서와 어떻게 비교되는가?
주요 결과
| Methods | Parameters | Vision Tokens | Overall | Text Edit | Formula CDM | Table TEDS | Table TEDS-S | Reading Order Edit |
|---|---|---|---|---|---|---|---|---|
| PaddleOCR-VL-L | - | 2561 | 92.62 | 0.035 | 90.90 | 90.48 | 94.19 | 0.043 |
- PaddleOCR-VL은 경쟁 모델보다 적은 비전 토큰으로 OmniDocBench v1.5에서 종합 점수 SOTA를 달성한다.
- PaddleOCR-VL-L은 2561 비전 토큰으로 92.62의 종합 점수에 도달하여 3256 토큰의 MinerU2.5를 능가한다.
- 모델은 Text Edit 거리 최저치(0.035)와 최상위 Table CDM(90.90), 높은 Table TEDS(90.48) 및 TEDS-S(94.19) 점수를 달성한다.
- 읽기 순서 편집이 최적화되어(0.043) 읽기 순서 정확도 향상에 기여한다.
- VRFM은 유효 영역에만 집중하여 백그라운드 처리를 줄이고, 0.9B의 소형 VLM으로 고정밀 인식을 가능하게 한다.
- 엔드-투-엔드 추론 속도와 메모리 사용은 여러 베이스라인을 능가하여 배치 처리 속도 향상과 더 낮은 GPU 메모리를 제공한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.