[论文解读] Boosting Document Parsing Efficiency and Performance with Coarse-to-Fine Visual Processing
PaddleOCR-VL 引入一个粗到细框架,搭配轻量级的有效区域聚焦模块(VRFM)和紧凑的 vision-language 模型,聚焦信息区域,在显著减少视觉令牌与参数的同时实现文档解析的 SOTA 性能。
Document parsing is a fine-grained task where image resolution significantly impacts performance. While advanced research leveraging vision-language models benefits from high-resolution input to boost model performance, this often leads to a quadratic increase in the number of vision tokens and significantly raises computational costs. We attribute this inefficiency to substantial visual regions redundancy in document images, like background. To tackle this, we propose PaddleOCR-VL, a novel coarse-to-fine architecture that focuses on semantically relevant regions while suppressing redundant ones, thereby improving both efficiency and performance. Specifically, we introduce a lightweight Valid Region Focus Module (VRFM) which leverages localization and contextual relationship prediction capabilities to identify valid vision tokens. Subsequently, we design and train a compact yet powerful 0.9B vision-language model (PaddleOCR-VL-0.9B) to perform detailed recognition, guided by VRFM outputs to avoid direct processing of the entire large image. Extensive experiments demonstrate that PaddleOCR-VL achieves state-of-the-art performance in both page-level parsing and element-level recognition. It significantly outperforms existing solutions, exhibits strong competitiveness against top-tier VLMs, and delivers fast inference while utilizing substantially fewer vision tokens and parameters, highlighting the effectiveness of targeted coarse-to-fine parsing for accurate and efficient document understanding. The source code and models are publicly available at https://github.com/PaddlePaddle/PaddleOCR.
研究动机与目标
- 通过解决高分辨率输入中视觉区域的冗余来推动高效文档解析。
- 提出一个两阶段架构,将版面分析与元素识别解耦。
- 开发 VRFM,在细粒度识别之前识别有效区域与阅读顺序。
- 构建 PaddleOCR-VL-0.9B,在所选区域内实现高精度识别。
- 在多项基准上展示最先进的性能,同时降低计算成本。
提出的方法
- 引入 PaddleOCR-VL,一个粗到细的框架,在识别前筛选冗余背景区域。
- 基于 RT-DETR 加指针网络的 VRFM 来检测区域并建模阅读顺序。
- 创建 PaddleOCR-VL-0.9B,一个紧凑的 vision-language 模型,具备基于 NaViT 的编码器和 ERNIE-4.5-0.3B 语言模型以实现快速推理。
- 在大规模多样化数据集(超过 3000 万样本)上对 VRFM 和 PaddleOCR-VL-0.9B 进行自动标注与困难样本挖掘的训练。
- 采用两阶段训练方法:阶段 1 预训练对齐关系;阶段 2 微调用于 OCR、表格、公式和图表任务。

实验结果
研究问题
- RQ1将计算限制在有效视觉区域对端到端文档解析的准确性和效率有何影响?
- RQ2一个解耦的两阶段架构(VRFM + 0.9B VLM)是否在页面级和元素级任务上优于端到端 VLM?
- RQ3原生分辨率处理与区域聚焦识别对延迟和内存使用有何影响?
- RQ4VRFM 生成的阅读顺序与真实顺序在重构结构化文档时的差异如何?
主要发现
| 方法 | 参数量 | 视觉令牌 | 综合得分 | Text Edit | Formula CDM | Table TEDS | Table TEDS-S | 阅读顺序 Edit |
|---|---|---|---|---|---|---|---|---|
| PaddleOCR-VL-L | - | 2561 | 92.62 | 0.035 | 90.90 | 90.48 | 94.19 | 0.043 |
- PaddleOCR-VL 在 OmniDocBench v1.5 上实现了最先进的整体分数,同时使用的视觉令牌比竞争模型更少。
- PaddleOCR-VL-L 以 2561 个视觉令牌达到 92.62 的综合分数,优于使用 3256 个令牌的 MinerU2.5。
- 该模型在 Text Edit 距离为 0.035、Table CDM 为 90.90 上表现最佳,同时 Table TEDS 为 90.48、TEDS-S 为 94.19。
- 阅读顺序的编辑被优化(0.043),提升了阅读顺序的准确性。
- VRFM 仅聚焦有效区域,降低背景处理,配合紧凑的 0.9B VLM 实现高精度识别。
- 端到端推理速度和内存使用优于若干基线,批处理速度更快且显存更低。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。