QUICK REVIEW

[論文レビュー] Up to 36x Speedup: Mask-based Parallel Inference Paradigm for Key Information Extraction in MLLMs

Xinzhong Wang, Ya Guo|arXiv (Cornell University)|Jan 27, 2026

Advanced Text Analysis Techniques被引用数 0

ひとこと要約

論文は、VrDsにおけるKIEのマスクベース並列推論パラダイムであるPIPを提案する。ターゲット値を[mask]トークンに置換して同時トークン生成を可能にし、推論を5–36×高速化し、精度の低下はごくわずかである。

ABSTRACT

Key Information Extraction (KIE) from visually-rich documents (VrDs) is a critical task, for which recent Large Language Models (LLMs) and Multi-Modal Large Language Models (MLLMs) have demonstrated strong potential. However, their reliance on autoregressive inference, which generates outputs sequentially, creates a significant efficiency bottleneck, especially as KIE tasks often involve extracting multiple, semantically independent fields. To overcome this limitation, we introduce PIP: a Parallel Inference Paradigm for KIE. Our approach reformulates the problem by using "[mask]" tokens as placeholders for all target values, enabling their simultaneous generation in a single forward pass. To facilitate this paradigm, we develop a tailored mask pre-training strategy and construct large-scale supervised datasets. Experimental results show that our PIP-models achieve a 5-36x inference speedup with negligible performance degradation compared to traditional autoregressive base models. By substantially improving efficiency while maintaining high accuracy, PIP paves the way for scalable and practical real-world KIE solutions.

研究の動機と目的

VrDsのKIEにおける自己回帰推論の非効率性を動機づけて解決する。
複数のキー情報フィールドを同時抽出可能なマスクベース並列デコードパラダイム（PIP）を導入する。
M LLMsにおける並列デコードを可能にするための2段階の学習パイプライン（マスク事前学習とKV監督付きファインチューニング）を開発する。
PIPが複数のベンチマークデータセットで速度向上（5–36×）と競争力あるまたは改善された精度を示すことを実証する。

提案手法

ターゲット値を[mask]トークンに置換して1回のフォワードパスで並列デコードを可能にすることでKIEを再定式化する。
マスク事前学習時に双方向アテンションを用いて予測の文脈を学習し、因果的アテンションを置換する。
並列推論を学ぶために大規模な画像キャプションデータセット（1300万画像）で事前学習する。
人間の介入による検証を伴うKV抽出データセットでファインチューニングして幻覚を減らしKV監督を有効化する。
出力フィールドに対応する異なる画像領域へトークンが注意する様子を可視化する。
推定速度と精度を示すために複数のベースモデルとデータセットを横断的に評価する。

実験結果

リサーチクエスチョン

RQ1マスク化されたターゲット出力と並列デコードは、精度を損なうことなくKIEの推論遅延を削減できるか？
RQ2マスク事前学習とKV監督付きファインチューニングはVrD KIEにおけるMLLMsで効果的な並列デコードをどう実現するか？
RQ3FUNSD、SROIE、CORD、POIE、WildReceiptなどの標準KIEベンチマークでどの程度のスピードアップと精度トレードオフが得られるか？
RQ4PIPパラダイムは異なるベースモデルアーキテクチャやスケールでもロバストか？

主な発見

PIPは自己回帰ベースのベースラインと比較して、性能の劣化なく推論速度を5–36×向上させる。
KV監督付きファインチューニングと組み合わせるとSROIEおよびCORDで最先端を大幅に改善（例：PIP-Qwen2-VL-7BはSROIEでANLS 97.0、CORDで97.3を達成）。
双方向アテンションを用いたマスク事前学習はKIEのMLLMsにおいて効果的な並列デコードを可能にする。
FUNSD、SROIE、CORD、POIE、WildReceiptにおいて遅延を大幅に減らしつつ競争力のある精度を維持する。
メモリオーバーヘッドは入力長の最大約30%増程度と控えめで、スループットの大幅な改善をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。