[論文レビュー] Boosting Document Parsing Efficiency and Performance with Coarse-to-Fine Visual Processing
PaddleOCR-VL は、軽量な Valid Region Focus Module (VRFM) とコンパクトな vision-language モデルを用いた coarse-to-fine フレームワークを提案し、 informative regions に焦点を当てることで、視覚トークンおよびパラメータを大幅に削減しつつ SOTA の文書解析を実現。
Document parsing is a fine-grained task where image resolution significantly impacts performance. While advanced research leveraging vision-language models benefits from high-resolution input to boost model performance, this often leads to a quadratic increase in the number of vision tokens and significantly raises computational costs. We attribute this inefficiency to substantial visual regions redundancy in document images, like background. To tackle this, we propose PaddleOCR-VL, a novel coarse-to-fine architecture that focuses on semantically relevant regions while suppressing redundant ones, thereby improving both efficiency and performance. Specifically, we introduce a lightweight Valid Region Focus Module (VRFM) which leverages localization and contextual relationship prediction capabilities to identify valid vision tokens. Subsequently, we design and train a compact yet powerful 0.9B vision-language model (PaddleOCR-VL-0.9B) to perform detailed recognition, guided by VRFM outputs to avoid direct processing of the entire large image. Extensive experiments demonstrate that PaddleOCR-VL achieves state-of-the-art performance in both page-level parsing and element-level recognition. It significantly outperforms existing solutions, exhibits strong competitiveness against top-tier VLMs, and delivers fast inference while utilizing substantially fewer vision tokens and parameters, highlighting the effectiveness of targeted coarse-to-fine parsing for accurate and efficient document understanding. The source code and models are publicly available at https://github.com/PaddlePaddle/PaddleOCR.
研究の動機と目的
- 高解像度入力における視覚領域の冗長性を解消して効率的な文書解析を動機づける。
- レイアウト分析と要素認識を分離する二段構造を提案する。
- VRFM を開発して有効な領域と読み順を細粒度認識前に識別する。
- 選択領域内で正確な認識を行う PaddleOCR-VL-0.9B を構築する。
- 計算コストを削減しつつ複数のベンチマークで最先端の性能を示す。
提案手法
- 認識前に冗長な背景領域をフィルタリングする coarse-to-fine フレームワークとして PaddleOCR-VL を導入する。
- 領域検出と読み順モデル化のために RT-DETR ベースのポインタネットワークを用いた VRFM を開発する。
- NaViT ベースのエンコーダと ERNIE-4.5-0.3B の言語モデルを組み合わせたコンパクトな vision-language モデルである PaddleOCR-VL-0.9B を作成する。
- 自動注釈とハードケースマイニングを伴う大規模で多様なデータセット(30M 以上のサンプル)で VRFM と PaddleOCR-VL-0.9B を訓練する。
- 二段階の訓練アプローチを採用する:第1段階で整合性を事前学習、第2段階で OCR・表・式・図のタスクの微調整を行う。

実験結果
リサーチクエスチョン
- RQ1有効な視覚領域だけに計算を制限することは、エンドツーエンドの文書解析の精度と効率性にどのような影響を与えるか?
- RQ2VRFM + 0.9B VLM の分離型二段階アーキテクチャは、ページレベルおよび要素レベルのタスクでエンドツーエンド VLM を上回るか?
- RQ3 native 解像度処理と領域中心の認識は遅延とメモリ使用量にどのような影響を与えるか?
- RQ4VRFM が生成する読み順は、構造化文書の再構成におけるグラウンドトゥルース順序とどの程度一致するか?
主な発見
| Methods | Parameters | Vision Tokens | Overall | Text Edit | Formula CDM | Table TEDS | Table TEDS-S | Reading Order Edit |
|---|---|---|---|---|---|---|---|---|
| PaddleOCR-VL-L | - | 2561 | 92.62 | 0.035 | 90.90 | 90.48 | 94.19 | 0.043 |
- PaddleOCR-VL は視覚トークン数を削減しつつ競合モデルよりも少ない視覚トークンで OmniDocBench v1.5 で総合スコアが最先端。
- PaddleOCR-VL-L は 2561 視覚トークンで総合スコア 92.62 を達成し、3256 トークンの MinerU2.5 を上回る。
- モデルは Text Edit 距離0.035、Table CDM 90.90 を含む最低値を達成し、Table TEDS 90.48 および TEDS-S 94.19 の高得点も獲得。
- 読み順の編集が最適化され(0.043)、読み順の高精度に寄与。
- VRFM は有効な領域のみに焦点を当て背景処理を削減し、0.9B のコンパクトな VLM で高精度認識を実現。
- エンドツーエンド推論の速度とメモリ使用は複数のベースラインを上回り、バッチ処理の高速化と GPU メモリの低減を達成。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。