QUICK REVIEW

[논문 리뷰] Sequence-aware multimodal page classification of Brazilian legal documents

Pedro Henrique Luz de Araujo, Ana Paula G. S. de Almeida|arXiv (Cornell University)|2022. 07. 02.

Artificial Intelligence in Law참고 문헌 36인용 수 8

한 줄 요약

이 논문은 시각적 및 텍스처적 특징을 학습 가능한 융합 모듈을 사용해 융합함으로써 브라질 연방 대법원 소송의 페이지를 분류하기 위한 순서 인식 다중모달 접근법을 제안한다. 결측 데이터를 처리할 수 있는 이 모듈을 통해, 양방향 LSTM과 CRF를 함께 사용하여 순서적 의존성을 모델링함으로써 최신 기술 수준의 성능을 달성한다. 이는 6,510宗의 소송과 339,478개의 주석이 달린 페이지를 포함하는 새로운 데이터셋에서 단일 모odal 및 비순서적 기반 모델을 능가한다.

ABSTRACT

The Brazilian Supreme Court receives tens of thousands of cases each semester. Court employees spend thousands of hours to execute the initial analysis and classification of those cases -- which takes effort away from posterior, more complex stages of the case management workflow. In this paper, we explore multimodal classification of documents from Brazil's Supreme Court. We train and evaluate our methods on a novel multimodal dataset of 6,510 lawsuits (339,478 pages) with manual annotation assigning each page to one of six classes. Each lawsuit is an ordered sequence of pages, which are stored both as an image and as a corresponding text extracted through optical character recognition. We first train two unimodal classifiers: a ResNet pre-trained on ImageNet is fine-tuned on the images, and a convolutional network with filters of multiple kernel sizes is trained from scratch on document texts. We use them as extractors of visual and textual features, which are then combined through our proposed Fusion Module. Our Fusion Module can handle missing textual or visual input by using learned embeddings for missing data. Moreover, we experiment with bi-directional Long Short-Term Memory (biLSTM) networks and linear-chain conditional random fields to model the sequential nature of the pages. The multimodal approaches outperform both textual and visual classifiers, especially when leveraging the sequential nature of the pages.

연구 동기 및 목표

학기당 수천 시간이 소요되는 브라질 연방 대법원 소송 페이지 분류에 필요한 수작업의 양을 줄이기 위해.
법률 분야의 문서 분류 정확도 향상을 위해 시각적(이미지) 및 텍스처적(OCR) 특징을 융합한 다중모달 프레임워크를 개발하기 위해.
다중 페이지로 구성된 소송의 순서적 구조를 활용하여 고립된 페이지 분석을 넘어서 분류 정확도를 향상시키기 위해.
이미지와 OCR로 추출한 텍스트를 모두 포함하는 6,510건의 브라질 소송과 339,478개의 주석이 달린 페이지를 포함한 새로운 대규모 다중모달 데이터셋을 구축하고 공개하기 위해.
융합 전략 및 순서 모델링 기법의 영향을 평가하여 포르투갈어 법적 문서에서의 분류 성능에 미치는 영향을 파악하기 위해.

제안 방법

ImageNet으로 미세조정된 ResNet-50 모델을 사용해 문서 이미지에서 시각적 특징을 추출한다.
OCR로 추출한 텍스트에 대해 1D CNN을 사용하여 다양한 커널 크기를 가진 모델을 새로 훈련하여 텍스처적 특징을 학습한다.
결측된 모odal리티에 대해 학습 가능한 임bedding을 사용하여 0 벡터를 대체하는 융합 모듈을 제안한다.
소송 내 페이지의 순서적 순서를 모델링하기 위해 biLSTM 네트워크를 적용하며, 레이블 일관성을 확보하기 위해 CRF 후처리를 적용한다.
조기 융합(이미지 및 텍스트 임베딩을 LSTM 이전에 연결)과 후기 융합(이후 LSTM 이후 융합)을 비교하여 성능을 평가한다.
연속된 페이지 간의 레이블 일관성을 강제하기 위해 CRF 레이어를 사용하여 예측의 일관성 향상.

실험 결과

연구 질문

RQ1비모달 모델에 비해 시각적 및 텍스처적 특징의 다중모달 융합이 브라질 법적 문서의 페이지 분류 정확도 향상에 기여하는가?
RQ2소송 내 페이지의 순서적 특성을 모델링함으로써 문서 분류 성능에 유의미한 향상이 이루어지는가?
RQ3융합 전략(조기 vs. 후기)의 선택이 다중모달 환경에서 분류 성능에 어떤 영향을 미치는가?
RQ40 벡터 대비 결측된 시각적 또는 텍스처적 데이터에 대해 학습 가능한 임베딩을 사용하는 것이 얼마나 효과적인가?
RQ5모달 융합과 순서 모델링을 동시에 학습하는 것이 별도로 융합된 특징을 사용하는 순서 모델링보다 성능이 뛰어나게 되는가?

주요 결과

결측 모달리티 입력에 대해 학습 가능한 임베딩을 사용하는 제안된 융합 모듈은 512개의 히든 유닛을 가진 모델에서 평균 F1 점수를 6.47%p 향상시키고, 128개의 히든 유닛을 가진 모델에서는 2.75%p 향상시켰다.
융합 모델은 단일 모달 분류기(텍스트 및 이미지)를 모두 능가하여 테스트 세트에서 평균 F1 점수 80.47%의 최고 성능을 기록했다.
융합된 이미지 및 텍스트 임베딩을 사용한 biLSTM 모델(BiLSTM-F)이 가장 뛰어난 성능을 보였으며, 평균 F1 점수는 81.25%이며, 가중 평균 F1 점수는 93.10%였다.
CRF 레이어는 BiLSTM 모델의 평균 F1 점수를 1.29%p 향상시켰지만, BiLSTM-F 모델에는 도움이 되지 않았다. 이는 융합과 순서 모델링 간의 상호작용 효과를 시사한다.
첫 번째 페이지의 분류 성능은 내부 페이지보다 유의미하게 높았으며, 융합 설정에서 평균 F1 점수는 9.47%p 향상되었고, 이는 첫 페이지가 더 정보가 많다는 것을 시사한다.
작은 버전의 VICTOR 데이터셋에서 최신 기술 수준의 성능을 달성하여 이전의 법적 문서 분류 분야 연구를 능가했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.