Skip to main content
QUICK REVIEW

[논문 리뷰] BERT Goes to Law School: Quantifying the Competitive Advantage of Access to Large Legal Corpora in Contract Understanding

Emad Elwany, D. Moore|arXiv (Cornell University)|2019. 11. 01.
Artificial Intelligence in Law참고 문헌 6인용 수 33
한 줄 요약

본 논문은 대규모 도메인 특화 법률 코퍼스에서 BERT를 미세조정하면 계약 조항 분류에서 미미하지만 의미 있는 개선이 나타나고 학습 속도가 빨라진다는 것을 보여줍니다. 이는 대규모 비주석 법률 코퍼스가 경쟁 우위가 됨을 시사합니다.

ABSTRACT

Fine-tuning language models, such as BERT, on domain specific corpora has proven to be valuable in domains like scientific papers and biomedical text. In this paper, we show that fine-tuning BERT on legal documents similarly provides valuable improvements on NLP tasks in the legal domain. Demonstrating this outcome is significant for analyzing commercial agreements, because obtaining large legal corpora is challenging due to their confidential nature. As such, we show that having access to large legal corpora is a competitive advantage for commercial applications, and academic research on analyzing contracts.

연구 동기 및 목표

  • 도메인 특화 법률 코퍼스가 BERT 기반 계약 분류 성능에 미치는 영향을 평가한다.
  • 법률 텍스트에 대해 BERT를 미세조정하는 경우와 사전 학습된 BERT를 사용하는 경우의 성능 향상을 정량화한다.
  • 법률 코퍼스 규모를 확대하는 것이 최종 작업 정확도와 학습 속도에 미치는 영향을 검토한다.

제안 방법

  • 수십만 건의 계약에서 추출한 독점적 법률 코퍼스에서 BERT-Base uncased 모델을 미세조정한다.
  • 기준은 Bag-of-Words + 신경망 분류기, 엔드-태스크 미세조정 유무의 BERT, 그리고 BERT 층을 고정(frozen) 또는 해제(unfrozen)한 변형들을 비교한다.
  • 수작업으로 주석이 달린 계약 조항 분류 작업(고정 vs 자동갱신)을 평가한다.
  • 검증 손실 기반의 얼리 스토핑으로 학습/검증/테스트 분할을 사용한다.
  • 정밀도, 재현율, F1, 및 MCC(가중치된)를 보고한다.
  • 도메인 특화 미세조정 및 코퍼스 크기의 영향을 평가하기 위해 구성 간 결과를 제시한다.

실험 결과

연구 질문

  • RQ1사전 학습된 BERT가 법률 계약 분류에서 기준 렉시컬 모델보다 우수한가?
  • RQ2대규모 법률 코퍼스에서 BERT를 추가로 미세조정하는 것이 사전 학습 모델만 사용하는 것보다 성능을 향상시키는가?
  • RQ3미세조정에 사용되는 법률 코퍼스의 크기가 커질수록 정확도와 학습 효율성이 어떻게 달라지는가?
  • RQ4BERT 층 고정이 이 최종 작업에 해로운가 아니면 이로운가, 그리고 엔드-태스크 미세조정이 그것과 어떻게 상호 작용하는가?

주요 결과

  • 사전학습된 BERT가 기본 Bag-of-Words 접근법보다 성능이 향상된다.
  • 법률 코퍼스에서 BERT를 미세조정하면 사전학습 모델 대비 추가적인 성능 향상을 얻는다.
  • 미세조정과 함께 BERT 층의 해제가 테스트된 구성들 중에서 가장 강한 결과를 달성한다.
  • 더 큰 법률 코퍼스에서의 미세조정은 정확도 향상과 더 빠른 학습 수렴을 제공한다.
  • 주석이 달리진 않더라도 큰 법률 코퍼스는 법률 NLP 응용에 귀중한 자산이자 경쟁 우위가 된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.