[論文レビュー] StrucTexTv2: Masked Visual-Textual Prediction for Document Image Pre-training
StrucTexTv2は、画像のみのエンコーダをテキスト領域マスキングで事前訓練し、マスクされた画像領域とトークンを同時に再構成する。OCR前処理を行わずに、5つの文書理解タスクで高い性能を達成する。
In this paper, we present StrucTexTv2, an effective document image pre-training framework, by performing masked visual-textual prediction. It consists of two self-supervised pre-training tasks: masked image modeling and masked language modeling, based on text region-level image masking. The proposed method randomly masks some image regions according to the bounding box coordinates of text words. The objectives of our pre-training tasks are reconstructing the pixels of masked image regions and the corresponding masked tokens simultaneously. Hence the pre-trained encoder can capture more textual semantics in comparison to the masked image modeling that usually predicts the masked image patches. Compared to the masked multi-modal modeling methods for document image understanding that rely on both the image and text modalities, StrucTexTv2 models image-only input and potentially deals with more application scenarios free from OCR pre-processing. Extensive experiments on mainstream benchmarks of document image understanding demonstrate the effectiveness of StrucTexTv2. It achieves competitive or even new state-of-the-art performance in various downstream tasks such as image classification, layout analysis, table structure recognition, document OCR, and information extraction under the end-to-end scenario.
研究の動機と目的
- OCRのボトルネックを回避するため、画像のみの入力でエンドツーエンドの文書画像理解を動機づける。
- 事前学習のためのテキスト領域レベルのマスキング方式を提案する。
- 視覚的およびテキスト的意味論を捉えるために、ピクセル再構成とトークン予測を共同で学習する。
提案手法
- 二枝のエンコーダ: CNNビジュアル抽出器+FPNを用いたマルチスケール融合のTransformerセマンティックモジュール。
- テキスト領域上の二つの自己教師付き事前学習タスク: Masked Language Modeling (MLM) と Masked Image Modeling (MIM)。
- MLM: テキスト領域をマスクし、ROI-Align特徴を用いた軽量な2層MLPでマスクされた語トークンを予測する。
- MIM: Emb_styleとEmb_contentの埋め込みを結合するFCNを用いて、マスクされたテキスト領域の生の画素値を回帰する。
- IIT-CDIP Test Collection 1.0で事前学習を行い、下流タスクは画像のみの入力とROIベースの領域処理を使用する。
実験結果
リサーチクエスチョン
- RQ1テキスト領域マスキングを伴う画像のみの事前学習は、OCRベースのマルチモーダル手法と対等または優位な性能を達成できるか?
- RQ2MLMとMIMは、文書画像の視覚的・テキスト的表現を学習するうえでどのように寄与するか?
- RQ3マスキング比率とエンコーディングバックボーンの選択が下流の文書理解タスクに与える影響はどのようなものか?
主な発見
- StrucTexTv2-SmallはRVL-CDIPで93.40%の精度を達成(画像のみの入力)。
- StrucTexTv2-LargeはRVL-CDIPで94.62%の精度を達成(画像のみの入力)。
- PubLayNetでは、StrucTexTv2-SmallとStrucTexTv2-Largeがそれぞれ95.4%と95.5%のmAPを達成。
- WTWでは、StrucTexTv2-Smallが表セル構造認識で78.9%のF1スコアを達成。
- FUNSDで、StrucTexTv2-Smallは文書OCRで84.1%の1-NED、エンド-to-エンドの情報抽出で55.0%の1-NEDを達成。
- アブレーション実験では、MLMとMIMを組み合わせると、いずれのタスク単独よりRVL-CDIPとPubLayNetの結果が向上することが示され、最良のマスキング比は約0.30である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。