QUICK REVIEW

[論文レビュー] Sequence-aware multimodal page classification of Brazilian legal documents

Pedro Henrique Luz de Araujo, Ana Paula G. S. de Almeida|arXiv (Cornell University)|Jul 2, 2022

Artificial Intelligence in Law参考文献 36被引用数 8

ひとこと要約

本稿では、欠損データを扱える学習可能ファージョンモジュールを用いて視覚的およびテキスト的特徴を統合することで、ブラジル連邦最高裁判所の訴訟文書のページ分類を目的とした、順序に配慮したマルチモーダル手法を提案する。生物LSTMとCRFを併用して順序依存性を同時にモデル化することで、6,510件の訴訟、339,478ページにわたる新しいデータセット上で、単一モodalおよび非順序ベースラインを上回る最先端の性能を達成している。

ABSTRACT

The Brazilian Supreme Court receives tens of thousands of cases each semester. Court employees spend thousands of hours to execute the initial analysis and classification of those cases -- which takes effort away from posterior, more complex stages of the case management workflow. In this paper, we explore multimodal classification of documents from Brazil's Supreme Court. We train and evaluate our methods on a novel multimodal dataset of 6,510 lawsuits (339,478 pages) with manual annotation assigning each page to one of six classes. Each lawsuit is an ordered sequence of pages, which are stored both as an image and as a corresponding text extracted through optical character recognition. We first train two unimodal classifiers: a ResNet pre-trained on ImageNet is fine-tuned on the images, and a convolutional network with filters of multiple kernel sizes is trained from scratch on document texts. We use them as extractors of visual and textual features, which are then combined through our proposed Fusion Module. Our Fusion Module can handle missing textual or visual input by using learned embeddings for missing data. Moreover, we experiment with bi-directional Long Short-Term Memory (biLSTM) networks and linear-chain conditional random fields to model the sequential nature of the pages. The multimodal approaches outperform both textual and visual classifiers, especially when leveraging the sequential nature of the pages.

研究の動機と目的

学期ごとに何千時間もかかるブラジル連邦最高裁判所の訴訟ページ分類作業の人的負担を軽減すること。
法的分野における文書分類の精度を向上させるために、視覚的（画像）およびテキスト的（OCR）特徴を統合するマルチモーダルフレームワークの開発。
複数ページにわたる訴訟の順序的構造を活用し、個々のページの分析を超えた分類精度の向上。
画像およびOCR抽出テキストを含む、6,510件のブラジル訴訟、339,478ページにわたる新しい大規模マルチモーダルデータセットの作成および公開。
ファージョン戦略および順序モデリング技術の影響を評価し、ポルトガル語の法的文書における分類性能に与える影響を特定すること。

提案手法

ImageNetで微調整されたResNet-50モデルを用いて、ドキュメント画像からの視覚的特徴抽出を実行。
OCR抽出テキストに対して、複数のカーネルサイズを有する1次元畳み込みニューラルネットワーク（1D CNN）を訓練し、テキスト特徴を学習。
欠損モダリティに対応するための学習可能埋め込みを用いて、視覚的およびテキスト的埋め込みを統合するファージョンモジュールを提案。
訴訟内のページの順序をモデル化するため、biLSTMネットワークを用い、ラベルの一貫性を確保するためのCRF後処理を併用。
LSTMの前後に特徴を統合する「エアリー・ファージョン」と「レイト・ファージョン」を比較し、性能を評価。
隣接するページ間でのラベルの一貫性を強制するため、CRF層を導入し、予測の整合性を向上。

実験結果

リサーチクエスチョン

RQ1視覚的およびテキスト的特徴のマルチモーダル統合は、単一モダリティモデルと比較して、ブラジル法的文書のページ分類精度を向上させることができるか？
RQ2訴訟内のページの順序的性質をモデル化することで、文書分類性能に顕著な向上が得られるか？
RQ3ファージョン戦略（エアリー対レイト）の選択が、マルチモーダル設定における分類性能に与える影響は何か？
RQ4ゼロベクトルに代えて、欠損した視覚的またはテキスト的データに学習可能な埋め込みを使用することは、どの程度効果的か？
RQ5モダリティ統合と順序モデリングを同時に学習することは、独立して統合された特徴に対する順序モデリングを上回る性能を達成できるか？

主な発見

欠損モダリティ入力に学習可能な埋め込みを用いた提案されたファージョンモジュールは、512および128の隠れユニットを持つモデルで、それぞれ平均F1スコアを6.47および2.75パーセンテージポイント向上させた。
ファージョンモデルは、テキストおよび画像の単一モダリティ分類器を上回り、テストセットで最高の平均F1スコア80.47％を達成した。
統合された画像およびテキスト特徴を用いたbiLSTM（BiLSTM-F）による順序モデリングが最良の性能を示し、平均F1スコア81.25％、加重F1スコア93.10％を達成した。
CRF層はBiLSTMモデルの平均F1スコアを1.29パーセンテージポイント向上させたが、BiLSTM-Fモデルには効果がなく、ファージョンと順序モデリングの間で相互作用がある可能性を示唆した。
最初のページの分類性能は内部ページよりも顕著に高く、ファージョン設定では平均F1スコアが9.47パーセンテージポイント向上した。これは最初のページがより情報を含んでいることを示している。
VICTORデータセットの小規模バージョンにおいて、最先端の結果を達成し、法的文書分類分野における先行研究を上回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。