QUICK REVIEW

[논문 리뷰] Pre-trained Language Models for the Legal Domain: A Case Study on Indian Law

Shounak Paul, Arpan Mandal|arXiv (Cornell University)|2022. 09. 13.

Artificial Intelligence in Law인용 수 27

한 줄 요약

이 논문은 두 개의 LegalBERT-계열 모델을 인도 법률 텍스트에 대해 계속 프리트레이닝하고 처음부터 인도 법률 어휘 모델(CustomInLawBERT)을 훈련하는 것을 조사한다. 인도 및 비인도 법률 태스크에서 평가하여 인도 도메인 프리트레이닝이 성능을 향상시키고, InLegalBERT가 엔드-태스크에서 강력한 결과를 얻는다.

ABSTRACT

NLP in the legal domain has seen increasing success with the emergence of Transformer-based Pre-trained Language Models (PLMs) pre-trained on legal text. PLMs trained over European and US legal text are available publicly; however, legal text from other domains (countries), such as India, have a lot of distinguishing characteristics. With the rapidly increasing volume of Legal NLP applications in various countries, it has become necessary to pre-train such LMs over legal text of other countries as well. In this work, we attempt to investigate pre-training in the Indian legal domain. We re-train (continue pre-training) two popular legal PLMs, LegalBERT and CaseLawBERT, on Indian legal data, as well as train a model from scratch with a vocabulary based on Indian legal text. We apply these PLMs over three benchmark legal NLP tasks -- Legal Statute Identification from facts, Semantic Segmentation of Court Judgment Documents, and Court Appeal Judgment Prediction -- over both Indian and non-Indian (EU, UK) datasets. We observe that our approach not only enhances performance on the new domain (Indian texts) but also over the original domain (European and UK texts). We also conduct explainability experiments for a qualitative comparison of all these different PLMs.

연구 동기 및 목표

인도 법률 데이터에 대해 LegalBERT-계열 모델의 계속된 프리트레이닝이 다운스트림 법률 NLP 태스크를 향상시키는지 평가한다.
인도 도메인 PLM(InLegalBERT, InCaseLawBERT, CustomInLawBERT)을 개발하고 기본 모델과 비교한다.
인도 및 비인도 데이터셋에서 Legal Statute Identification(LSI), 판결의 의미 분할, 법원 판결 예측을 평가한다.
도메인 적응 효과를 이해하기 위해 모델의 어텐션을 분석한다.
재현성과 추가 연구를 위해 모델을 공개적으로 배포한다.]
method1
- 대법원/고등법원 판결문 및 중앙 법령을 포함하는 대형 인도 법률 코퍼스(~5.4M 문서, ~27GB)를 수집한다.
method2
- 인도 데이터로 LegalBERT 및 CaseLawBERT의 지속적 프리트레이닝으로 InLegalBERT 및 InCaseLawBERT를 얻고, CustomInLawBERT로 커스텀 인도-법률 어휘를 사용해 BERT-base-uncased 모델을 From scratch로 학습한다.
method3
- From-scratch 모델용 10% 데이터로 학습된 WordPiece를 이용해 커스텀 인도 어휘를 생성한다.
method4
- 더 긴 컨텍스트를 가능하게 하기 위해 512-token 입력 청크와 254-token 세그먼트를 사용; 동적 마스킹이 있는 MLM 및 동적 샘플링이 있는 NSP를 적용한다.
method5
- 보류된 인도-법률 테스트 세트에서 perplexity를 평가하고 HierBERT 아키텍처(문장/청크 인코더 + 주의가 있는 LSTM)를 사용한 엔드-태스크 파인튜닝을 수행한다.
method6
- 인도 및 유럽 데이터셋에서 LSI, 판결의 의미 분할, Court Judgement Prediction에 대해 모델을 비교한다.]
research_questions4
- 인도 법률 데이터에 대한 추가 프리트레이닝이 기본 LegalBERT/CaseLawBERT 대비 인도 법률 NLP 태스크의 성능을 향상시키는가?
research_questions5
- From-scratch 인도-법률 어휘 모델(CustomInLawBERT)은 재학습된 인도-도메인 모델과 비교해 어떤 성능 차이가 있는가?
research_questions6
- 인도 도메인 PLMs이 인도 외의 법률 데이터셋(EU/UK)으로 일반화나 전달이 가능한가?
research_questions7
- 인도 특화 프리트레이닝에서 어텐션 패턴은 도메인 적응에 대해 무엇을 밝히는가?
research_questions8
- 벤치마크 법률 데이터셋에서 인도-도메인 PLMs가 달성한 최첨단 성능은 무엇인가?]
key_findings4
- InLegalBERT는 인도 데이터에서 studied 모델 중 최상의 perplexity(5.2547)를 달성하며 일반적으로 엔드-태스크에서 다른 변형보다 우수한 성능을 보인다.
key_findings5
- CustomInLawBERT는 더 적은 학습 단계(700k)임에도 불구하고 BERT보다 개선되며 여러 데이터셋에서 InLegalBERT/InCaseLawBERT의 성능에 근접한다.
key_findings6
- InLegalBERT는 대부분의 엔드-태스크에서 다른 모든 PLM보다 뛰어나며 원저작물의 데이터셋과 비교했을 때 4개 중 5개 데이터셋에서 최첨단 결과를 확립한다.
key_findings7
- perplexity 결과는 인도 도메인 프리트레이닝이 기본 모델 및 EU/US 중심 LegalBERT/CaseLawBERT 모델에 비해 perplexity를 감소시키는 것을 보여준다(예: BERT 25.76 vs InLegalBERT 5.25).
key_findings8
- 인도-도메인 인코더 변형(LegalBERT, InLegalBERT 등)을 갖춘 Fine-tuned HierBERT 아키텍처가 인도 및 비인도 벤치마크(LSI 및 ECtHR-B 데이터셋)에서 베이스라인보다 이득을 얻는다.
key_findings9
- 저자는 HuggingFace에서 공개적으로 사용 가능한 모델(InLegalBERT, InCaseLawBERT, CustomInLawBERT)과 동반 프리-트레이닝 코드를 제공한다.

제안 방법

- 대법원/고등법원 판결문 및 중앙 법령을 포함하는 대형 인도 법률 코퍼스(~5.4M 문서, ~27GB)를 수집한다.
- 인도 데이터로 LegalBERT와 CaseLawBERT의 계속 프리트레이닝을 통해 InLegalBERT와 InCaseLawBERT를 얻고 커스텀 인도-법률 어휘를 사용해 BERT-base-uncased 모델을 From scratch로 학습한다(CustomInLawBERT).
- From-scratch 모델을 위한 10% 데이터로 학습된 WordPiece를 사용해 인도 어휘를 생성한다.
- 프리트레이닝 중 더 긴 컨텍스트를 가능하게 하기 위해 512-token 입력 청크와 254-token 세그먼트를 사용; 동적 마스킹이 있는 MLM 및 동적 샘플링이 있는 NSP를 적용한다.
- 보류된 인도-법률 테스트 세트에서 perplexity를 평가하고 HierBERT 아키텍처(문장/청크 인코더 + LSTM with attention)를 사용한 엔드-태스크 파인튜닝을 수행한다.
- 인도 및 유럽 데이터셋에서 LSI, 판결의 의미 분할, Court Judgement Prediction에 대해 모델을 비교한다.]
research_questions4
- 인도 법률 데이터에 대한 추가 프리트레이닝이 기본 LegalBERT/CaseLawBERT 대비 인도 법률 NLP 태스크의 성능을 향상시키는가?
research_questions5
- From-scratch 인도-법률 어휘 모델(CustomInLawBERT)은 재학습된 인도-도메인 모델과 비교해 어떤 성능 차이가 있는가?
research_questions6
- 인도 도메인 PLMs이 인도 외의 법률 데이터셋(EU/UK)으로 일반화나 전달이 가능한가?
research_questions7
- 인도 특화 프리트레이닝에서 어텐션 패턴은 도메인 적응에 대해 무엇을 밝히는가?
research_questions8
- 벤치마크 법률 데이터셋에서 인도-도메인 PLMs가 달성한 최첨단 성능은 무엇인가?]
table_headers_translated
모델
ILSI (mP)
ILSI (mR)
ILSI (mF1)
ECtHR-B (mP)
ECtHR-B (mR)
ECtHR-B (mF1)
table_rows_raw
[["BERT", "82.12", "49.07", "59.11", "77.50", "69.31", "72.95"], ["LegalBERT", "83.98", "53.83", "63.89", "80.85", "70.76", "75.09"], ["CaseLawBERT", "82.89", "54.72", "64.53", "82.37", "66.45", "72.87"], ["InLegalBERT", "82.42", "55.16", "64.58", "83.93", "71.41", "75.88"], ["InCaseLawBERT", "81.07", "55.64", "64.44", "77.35", "69.45", "72.86"], ["CustomInLawBERT", "82.48", "54.46", "64.29", "79.64", "67.09", "72.56"]]}{
table_rows_translated
[["BERT", "82.12", "49.07", "59.11", "77.50", "69.31", "72.95"], ["LegalBERT", "83.98", "53.83", "63.89", "80.85", "70.76", "75.09"], ["CaseLawBERT", "82.89", "54.72", "64.53", "82.37", "66.45", "72.87"], ["InLegalBERT", "82.42", "55.16", "64.58", "83.93", "71.41", "75.88"], ["InCaseLawBERT", "81.07", "55.64", "64.44", "77.35", "69.45", "72.86"], ["CustomInLawBERT", "82.48", "54.46", "64.29", "79.64", "67.09", "72.56"]]}
table_rows

실험 결과

연구 질문

RQ1- 인도 법률 데이터에 대한 추가 프리트레이닝이 기본 LegalBERT/CaseLawBERT 대비 인도 법률 NLP 태스크의 성능을 향상시키는가?
RQ2- From-scratch 인도-법률 어휘 모델(CustomInLawBERT)은 재학습된 인도-도메인 모델과 비교해 어떤 성능 차이가 있는가?
RQ3- 인도 도메인 PLMs이 인도 외의 법률 데이터셋(EU/UK)으로 일반화나 전달이 가능한가?
RQ4- 인도 특화 프리트레이닝에서 어텐션 패턴은 도메인 적응에 대해 무엇을 밝내는가?
RQ5- 벤치마크 법률 데이터셋에서 인도-도메인 PLMs가 달성한 최첨단 성능은 무엇인가?

주요 결과

모델	ILSI (mP)	ILSI (mR)	ILSI (mF1)	ECtHR-B (mP)	ECtHR-B (mR)	ECtHR-B (mF1)
BERT	82.12	49.07	59.11	77.50	69.31	72.95
LegalBERT	83.98	53.83	63.89	80.85	70.76	75.09
CaseLawBERT	82.89	54.72	64.53	82.37	66.45	72.87
InLegalBERT	82.42	55.16	64.58	83.93	71.41	75.88
InCaseLawBERT	81.07	55.64	64.44	77.35	69.45	72.86
CustomInLawBERT	82.48	54.46	64.29	79.64	67.09	72.56

- InLegalBERT는 인도 데이터에서 studied 모델 중 최상의 perplexity(5.2547)를 달성하며 일반적으로 엔드-태스크에서 다른 변형보다 우수한 성능을 보인다.
- CustomInLawBERT는 더 적은 학습 단계(700k)임에도 불구하고 BERT보다 개선되며 여러 데이터셋에서 InLegalBERT/InCaseLawBERT의 성능에 근접한다.
- InLegalBERT는 대부분의 엔드-태스크에서 다른 모든 PLM보다 뛰어나며 원저작물의 데이터셋과 비교했을 때 4개 중 5개 데이터셋에서 최첨단 결과를 확립한다.
- perplexity 결과는 인도 도메인 프리트레이닝이 기본 모델 및 EU/US 중심 LegalBERT/CaseLawBERT 모델에 비해 perplexity를 감소시키는 것을 보여준다(예: BERT 25.76 vs InLegalBERT 5.25).
- Fine-tuned HierBERT 아키텍처와 인코더 변형(LegalBERT, InLegalBERT 등)은 인도 및 비인도 벤치마크(LSI 및 ECtHR-B 데이터셋)에서 베이스라인 대비 이득을 가져온다.
- 저자는 HuggingFace에서 공개적으로 사용 가능한 모델(InLegalBERT, InCaseLawBERT, CustomInLawBERT)과 함께 프리-트레이닝 코드를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.