Skip to main content
QUICK REVIEW

[논문 리뷰] The Cambridge Law Corpus: A Dataset for Legal AI Research

Andreas Östling, Holli Sargeant|arXiv (Cornell University)|2023. 01. 01.
Artificial Intelligence in Law인용 수 7
한 줄 요약

케임브리지 법학 코퍼스(Cambridge Law Corpus, CLC)는 16세기에서 21세기까지의 영국 법원 재판 258,146宗을 포함하는 대규모로 법적·윤리적으로 정제된 데이터셋으로, 학술 연구를 위해 공개되었으며, 638宗의 판결 결과에 대한 주석 정보가 포함되어 있다. 이 데이터셋은 GPT-3, GPT-4, RoBERTa와 같은 법적 AI 모델의 성능 평가를 가능하게 하며, 엄격한 사용 조건 하에 재현 가능하고 책임감 있는 법적 NLP 연구를 지원한다.

ABSTRACT

We introduce the Cambridge Law Corpus (CLC), a corpus for legal AI research. It consists of over 250 000 court cases from the UK. Most cases are from the 21st century, but the corpus includes cases as old as the 16th century. This paper presents the first release of the corpus, containing the raw text and meta-data. Together with the corpus, we provide annotations on case outcomes for 638 cases, done by legal experts. Using our annotated data, we have trained and evaluated case outcome extraction with GPT-3, GPT-4 and RoBERTa models to provide benchmarks. We include an extensive legal and ethical discussion to address the potentially sensitive nature of this material. As a consequence, the corpus will only be released for research purposes under certain restrictions.

연구 동기 및 목표

  • 영국 법제도를 위한 대규모, 고품질, 기계가 읽을 수 있는 법적 코퍼스의 부족 문제를 해결하기 위해.
  • 법적 준수와 윤리적 책임을 다하는 데이터셋을 제공하여 법적 AI 모델의 훈련 및 평가를 지원하기 위해.
  • 실제 법적 환경에서의 판결 결과 예측 작업에 대해 최첨단 LLM(GPT-3, GPT-4, RoBERTa 등)의 성능을 평가할 수 있도록 하기 위해.
  • 기여자와 사용자 책임을 고려한 지속 가능하고, 버전 관리가 되며 확장 가능한 데이터셋 인프라를 구축하기 위해.

제안 방법

  • 16세기에서 21세기까지의 영국(잉글랜드 및 웨일즈) 법원 재판 258,146건을 수집 및 디지털화하기 위해.
  • 연구 목적을 위한 기계가 읽을 수 있는 형식으로 구조화된 메타데이터와 원본 텍스트를 포함하기 위해.
  • 감정 분석을 위한 지침에 따라 638건의 판결 결과를 전문가가 주석 처리하여 지도 학습 및 평가를 가능하게 하기 위해.
  • 주석 처리된 데이터셋을 기반으로 트랜스포머 기반 모델(GPT-3, GPT-4, RoBERTa)을 사용해 판결 결과 예측 작업에 대해 훈련 및 평가하기 위해.
  • GDPR 준수 및 오용 방지를 위해 엄격한 액세스 제어, 윤리적 검토 요구사항, 라이선스 프레임워크를 구현하기 위해.
  • 변경 사항 기록 및 향후 기여 및 수정을 지원하는 Git 기반의 버전 관리 방식으로 배포하기 위해.

실험 결과

연구 질문

  • RQ1GPT-3, GPT-4, RoBERTa와 같은 대규모 언어 모델이 영국 법적 판결문에서 판결 결과를 얼마나 정확하게 예측할 수 있는가?
  • RQ2일반 목적의 LLM과 특화된 법적 모델 간의 성능 격차는 영국 판결 결과 예측 작업에서 어떻게 나타나는가?
  • RQ3GDPR 및 개인정보 보호 조치와 같은 윤리적·법적 제약 조건을 법적 AI 데이터셋 설계 및 배포 과정에 체계적으로 통합할 수 있는가?
  • RQ4역사적 법적 언어 및 케이스 포맷의 다양성이 모델의 일반화 능력과 데이터 품질에 어떤 영향을 미치는가?
  • RQ5커뮤니티 기여를 수용하면서도 지속 가능하고, 버전 관리가 되며 확장 가능한 법적 코퍼스를 어떻게 장기적으로 유지하고 확장할 수 있는가?

주요 결과

  • CLC 데이터셋은 16세기에서 21세기까지의 영국 법원 재판 258,146건을 포함하며, 법적 전문가가 638건의 판결 결과를 주석 처리하였다.
  • GPT-4 및 RoBERTa 모델이 판결 결과 예측 작업에서 뛰어난 성능을 보이며, 영국 법적 AI 분야에서 새로운 기준을 설정하였다.
  • 데이터셋은 연구 목적 전용 라이선스로 배포되며, 윤리적 준수 조건이 포함되어 있어, 반드시 윤리적 승인 절차와 GDPR 준수를 이행해야 한다.
  • 데이터셋은 Git을 활용한 버전 관리 방식을 통해 배포되며, 향후 새로운 사례, 기능, 수정 사항이 점진적으로 통합되고, 공개된 변경 사항 기록이 제공된다.
  • 사용자는 개인 정보가 포함된 인물의 데이터 삭제를 요청할 수 있으며, 품질 관리 조건을 충족하는 경우 커뮤니티 기여를 지원한다.
  • 데이터셋은 DOI(10.17863/CAM.100221)와 사용 조건 및 기여 가이드라인을 포함한 전용 프로젝트 페이지를 통해 접근 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.