[論文レビュー] LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking
LayoutLMv3 は統一されたテキストと画像のマスキングと Word-Patch Alignment 目的を導入し、単一の多模態 Transformer が CNN バックボーンなしにテキスト中心および画像中心の Document AI タスクの両方で優れるようにします。
Self-supervised pre-training techniques have achieved remarkable progress in Document AI. Most multimodal pre-trained models use a masked language modeling objective to learn bidirectional representations on the text modality, but they differ in pre-training objectives for the image modality. This discrepancy adds difficulty to multimodal representation learning. In this paper, we propose extbf{LayoutLMv3} to pre-train multimodal Transformers for Document AI with unified text and image masking. Additionally, LayoutLMv3 is pre-trained with a word-patch alignment objective to learn cross-modal alignment by predicting whether the corresponding image patch of a text word is masked. The simple unified architecture and training objectives make LayoutLMv3 a general-purpose pre-trained model for both text-centric and image-centric Document AI tasks. Experimental results show that LayoutLMv3 achieves state-of-the-art performance not only in text-centric tasks, including form understanding, receipt understanding, and document visual question answering, but also in image-centric tasks such as document image classification and document layout analysis. The code and models are publicly available at \url{https://aka.ms/layoutlmv3}.
研究の動機と目的
- 統一された自己教師付き事前学習フレームワークを用いて、多模態 Document AI のCNNへの依存を減らす。
- テキストトークンと画像パッチを跨るモダリティ間で整列する目的を開発する(MLM、MIM、WPA)。
- テキスト中心および画像中心のドキュメント理解タスクの両方に対して、単一モデルの汎用性を示す。
提案手法
- 結合されたテキストと画像パッチ埋め込みを処理する統一された Transformer アーキテクチャを採用。
- 文脈に基づいてマスクされたテキストトークンを復元するために MLM を使用。
- 離散 VAE を介して得られたビジュアル語彙のトークンを再構成するために MIM を使用。
- マスクされたテキスト語に対応する画像パッチがマスクされているかを予測する Word-Patch Alignment (WPA) を導入。
- RoBERTa と DiT の初期化を用いて 11M IIT-CDIP 文書画像を用いて訓練。CNN の代わりにパッチベースの画像埋め込みを採用。
実験結果
リサーチクエスチョン
- RQ1統一された MLM、MIM、WPA 目的で事前学習された単一の多模態 Transformer が、テキスト中心および画像中心の Document AI タスクの両方で最先端の性能を達成できるか。
- RQ2CNN ベースの画像埋め込みを線形パッチ埋め込みに置換すると、さまざまなドキュメントタスクにおける性能と効率はどう変化するか。
- RQ3WPA 目的は、様々なベンチマークで跨モーダルの整列と下流タスクの精度を改善するか。
- RQ4事前学習目的(MLM、MIM、WPA)がフォーム/レシート理解、文書画像分類、DocVQA に与える影響は何か。
主な発見
| Model | Framework | Backbone | Text | Title | List | Table | Figure | Overall |
|---|---|---|---|---|---|---|---|---|
| LAYOUTLMV3_BASE | Ours | Transformer | Yes | Yes | Yes | Yes | Yes | 95.1 |
| PubLaynet (baselines) | Various | ResNet/CNN | Yes | Yes | Yes | Yes | Yes | 94-96 |
- LayoutLMv3 は FUNSD での F1 が最先端(BASE: 90.29; LARGE: 92.08)、CORD で最先端(BASE: 96.56; LARGE: 97.46)。
- LayoutLMv3 は RVL-CDIP で最先端の正確さを達成(BASE: 95.44; LARGE: 95.93)。
- LayoutLMv3 は DocVQA ANLS スコアで堅実な成績を示す(BASE: 78.76; LARGE: 83.37)。
- PubLayNet の画像レイアウト分析は線形画像埋め込みの恩恵を受け、LayoutLMv3 は 95.1 mAP(BASE/LARGE)を達成し、CNN ベースのバックボーンを上回る。
- アブレーションにより MIM が画像中心タスクを改善し、WPA はすべてのタスクを一貫して改善し、画像埋め込みのパラメータオーバーヘッドは最小限(線形パッチ約 0.6M の追加パラメータ)。
- LayoutLMv3 は視覚専用の文書レイアウト分析タスク(PubLayNet)向けに、Transformer バックボーンを用いて競争力のある MAP を実現するファインチューニングが可能(試したバックボーンの中で最良)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。