QUICK REVIEW

[논문 리뷰] CAIL2018: A Large-Scale Legal Dataset for Judgment Prediction

Chaojun Xiao, Haoxi Zhong|arXiv (Cornell University)|2018. 07. 04.

Artificial Intelligence in Law참고 문헌 10인용 수 188

한 줄 요약

논문은 2.6 million 형사 사건과 풍부한 주석(법조문, 혐의, 징역 기간)을 포함한 최초의 대규모 중국어 법적 판결 예측 데이터셋인 CAIL2018을 소개한다. 기본 모델은 높은 정확도를 보이지만 데이터 불균형과 용어 예측의 난이도로 인해 매크로 정밀도/재현율이 크게 흔들린다.

ABSTRACT

In this paper, we introduce the extbf{C}hinese extbf{AI} and extbf{L}aw challenge dataset (CAIL2018), the first large-scale Chinese legal dataset for judgment prediction. \dataset contains more than $2.6$ million criminal cases published by the Supreme People's Court of China, which are several times larger than other datasets in existing works on judgment prediction. Moreover, the annotations of judgment results are more detailed and rich. It consists of applicable law articles, charges, and prison terms, which are expected to be inferred according to the fact descriptions of cases. For comparison, we implement several conventional text classification baselines for judgment prediction and experimental results show that it is still a challenge for current models to predict the judgment results of legal cases, especially on prison terms. To help the researchers make improvements on legal judgment prediction, both \dataset and baselines will be released after the CAIL competition\footnote{http://cail.cipsc.org.cn/}.

연구 동기 및 목표

중국 법률에서의 Legal Judgment Prediction (LJP)을 위한 대규모의 풍부한 주석 데이터셋을 제공한다.
법 조문, 혐의 및 징역 기간 예측을 위한 기계학습 모델의 평가 및 개선을 가능하게 한다.
LJP 작업에서의 데이터 불균형과 저주파 라벨과 같은 도전 과제를 강조한다.

제안 방법

CAIL2018을 570만 건의 형사 문서에서 수집 및 전처리하여 2,676,000건의 단일 피고 사건과 183개 법 조문 및 202개 혐의로 yield한다.
판결문에서 정규식(regexp)을 이용해 입력(사실 설명)과 출력(법 조문, 혐의, 징역 기간)을 추출한다.
세 가지 베이스라인을 평가한다: TFIDF+SVM, FastText, CNN을 세 가지 하위 작업(법 조문, 혐의, 징역 기간)에 대해 평가한다.
THULAC를 이용한 중국어 단어 분절; 200차원의 Skip-Gram 임베딩 사용; CNN 입력 길이를 4096으로 설정하고 다중 필터 크기; Adam(lr=0.001)과 dropout 0.5로 학습한다.

실험 결과

연구 질문

RQ1대규모 중국어 LJP 데이터셋이 다양한 혐의와 조문에 걸친 모델 일반화에 도움을 주는가?
RQ2CAIL2018에서 법 조문, 혐의, 징역 기간 예측에 대한 기본 텍스트 분류 방법의 성능은 어떠한가?
RQ3데이터 불균형이 LJP 작업에서 매크로 정밀도와 재현율에 미치는 영향은 무엇인가?
RQ4모델 아키텍처(TFIDF+SVM, FastText, CNN)가 세 가지 LJP 하위 작업에서 정확도 측면에서 어떤 차이를 보이는가?

주요 결과

CAIL2018은 2,676,075건의 형사 사건, 183개의 법 조문, 202개의 혐의를 포함한다.
FastText, TFIDF+SVM, CNN은 혐의와 법 조문에서 높은 정확도를 달성하지만 불균형과 저주파 라벨로 인해 매크로-정밀도/재현율은 낮다.
전반적으로 징역 기간 예측이 가장 도전적인 하위 작업으로 남아 있다.
보고된 결과는 비교적 높은 정확성을 보이나 매크로 수준의 지표(MP, MR)에서 개선 여지가 크게 남아 있다.
데이터셋 규모와 더 풍부한 주석은 CAIL2018을 이전 LJP 데이터셋과 차별화하며 모델에 대한 심도 있는 평가를 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.