[論文レビュー] LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding
LayoutXLM は、多言語の視覚的に豊かなドキュメント理解のためのマルチモーダル事前学習モデルで、フォーム理解のための XFUND を導入し、多言語ベンチマークで最先端の結果を達成します。
Multimodal pre-training with text, layout, and image has achieved SOTA performance for visually-rich document understanding tasks recently, which demonstrates the great potential for joint learning across different modalities. In this paper, we present LayoutXLM, a multimodal pre-trained model for multilingual document understanding, which aims to bridge the language barriers for visually-rich document understanding. To accurately evaluate LayoutXLM, we also introduce a multilingual form understanding benchmark dataset named XFUND, which includes form understanding samples in 7 languages (Chinese, Japanese, Spanish, French, Italian, German, Portuguese), and key-value pairs are manually labeled for each language. Experiment results show that the LayoutXLM model has significantly outperformed the existing SOTA cross-lingual pre-trained models on the XFUND dataset. The pre-trained LayoutXLM model and the XFUND dataset are publicly available at https://aka.ms/layoutxlm.
研究の動機と目的
- テキスト、レイアウト、画像モダリティを活用して、Visually-rich Document Understanding (VrDU) における言語の障壁を克服する。
- 実世界の大規模文書で多言語モデルを事前学習し、クロスリンガルおよびクロスモーダル信号を捉える。
- 7言語のキーと値の注釈を含む多言語フォーム理解データセット XFUND を作成・公開する。
- マルチモーダル事前学習がフォーム理解タスクにおけるクロスリンガル転移とマルチタスク性能を向上させることを示す。
提案手法
- テキスト、レイアウト、画像の特徴をテキスト、レイアウト、ビジュアル埋め込みでエンコードするマルチモーダル Transformer アーキテクチャを採用する。
- InfoXLM から初期化された多言語事前学習とビジュアルバックボーン(ResNeXt101-FPN)を用いて LayoutLMv2 を拡張する。
- 三つの事前学習目的を使用する:Multilingual Masked Visual-Language Modeling (MMVLM)、Text-Image Alignment (TIA)、Text-Image Matching (TIM)。
- MMVLM のために、トークン境界を文字レベルで SentencePiece を用いて定義し、境界ボックスの集約によって多言語入力を統合する。
- 訓練データは 30 million ドキュメントで構成される(30M 合計:22M 多言語デジタル由来 PDFs と 8M スキャン済みの英語 IIT-CDIP ドキュメント)。
実験結果
リサーチクエスチョン
- RQ1マルチモーダル多言語モデルは、視覚的に豊かなドキュメントに対して、クロスリンガルおよびクロスドメイン表現を効果的に学習できるか。
- RQ2レイアウトと画像情報を組み込むことで、テキストのみモデルを超えて言語間でのフォーム理解を改善できるか。
- RQ3ゼロショットおよびマルチタスク設定における多言語フォーム理解で、クロスリンガル転移はどれくらい機能するか。
主な発見
- LayoutXLM LARGE は XFUND において SER と RE の F1 で XLM-RoBERTa および InfoXLM のベースラインを上回る。
- 言語特化ファインチューニングでは、LayoutXLM LARGE が全8言語設定で SER と RE のベースラインを上回る。
- ゼロショット転移(English FUNSD で訓練し他言語をテスト)では、LayoutXLM はレイアウト不変性を活用してテキストベースモデルを大きく上回る。
- 8言語にまたがるマルチタスクファインチューニングは、言語別ファインチューニングより性能をさらに向上させ、マルチ言語学習の利点を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。