QUICK REVIEW

[논문 리뷰] How Ready are Pre-trained Abstractive Models and LLMs for Legal Case Judgement Summarization?

Aniket Deroy, Kripabandhu Ghosh|arXiv (Cornell University)|2023. 06. 02.

Artificial Intelligence in Law인용 수 24

한 줄 요약

본 연구는 인도 대법원 판결에서 사전 학습된 추상적 요약 모델과 일반 LLM을 평가하여 추상적 방법이 표준 지표에서 약간 더 우수한 경향을 보이지만 일관성 및 사실성에 대한 유의미한 차이와 환각이 나타나며, 인간-피드백 루프가 여전히 필요함을 시사합니다.

ABSTRACT

Automatic summarization of legal case judgements has traditionally been attempted by using extractive summarization methods. However, in recent years, abstractive summarization models are gaining popularity since they can generate more natural and coherent summaries. Legal domain-specific pre-trained abstractive summarization models are now available. Moreover, general-domain pre-trained Large Language Models (LLMs), such as ChatGPT, are known to generate high-quality text and have the capacity for text summarization. Hence it is natural to ask if these models are ready for off-the-shelf application to automatically generate abstractive summaries for case judgements. To explore this question, we apply several state-of-the-art domain-specific abstractive summarization models and general-domain LLMs on Indian court case judgements, and check the quality of the generated summaries. In addition to standard metrics for summary quality, we check for inconsistencies and hallucinations in the summaries. We see that abstractive summarization models generally achieve slightly higher scores than extractive models in terms of standard summary evaluation metrics such as ROUGE and BLEU. However, we often find inconsistent or hallucinated information in the generated abstractive summaries. Overall, our investigation indicates that the pre-trained abstractive summarization models and LLMs are not yet ready for fully automatic deployment for case judgement summarization; rather a human-in-the-loop approach including manual checks for inconsistencies is more suitable at present.

연구 동기 및 목표

법률 사건 판결에 대한 도메인 특화 추상적 요약 모델의 효과성 평가.
인도 대법원 판결에 대해 추상적 모델, 일반 도메인 LLM, 그리고 추출기 baselines를 비교.
표준 요약 지표뿐 아니라 출력의 일관성과 환각 위험도 평가.

제안 방법

일반 도메인 LLM(Text-Davinci-003 및 Turbo-GPT-3.5)을 TL;DR 및 전체 요약 프롬프트로 적용.
법률 도메인 추상적 모델(Legal-Pegasus, LegLED)과 도메인 내 미세조정 변형(LegPegasus-IN, LegLED-IN) 적용.
비교를 위한 추출기 baselines(CaseSummarizer, BertSum, SummaRunner/RNN_RNN) 적용.
긴 문서를 청크로 처리(청크당 최대 1024단어)하고 청크 요약을 연결.
표준 지표(ROUGE, METEOR, BLEU)와 일관성 지표(SummaC, NumPrec, NEPrec) 계산.
금 표준 요약과의 압축 비율을 보존하기 위해 청크 크기와 대상 요약 길이 조정.

실험 결과

연구 질문

RQ1도메인 특화 추상적 모델이 인도 법률 판결에서 일반 도메인 LLM과 어떻게 비교되는가?
RQ2추상적 모델이 더 유창한 요약을 생성하나 일관성 및 사실 정확도 측면에서 비용이 있는가?
RQ3판결 요약의 fully automatic 배포가 가능하인가, 아니면 인간-루프 접근이 여전히 필요한가?
RQ4도메인 내 미세조정이 요약 품질과 일관성에 미치는 영향은 무엇인가?

주요 결과

모델	R2-P	R2-R	R2-F1	RL-P	RL-R	RL-F1	METEOR	BLEU (%)
chatgpt-tldr	0.2391	0.1428	0.1729	0.2956*	0.1785	0.2149	0.1634	7.39
chatgpt-summ	0.1964	0.1731	0.1818	0.2361	0.2087	0.2188	0.1962	10.82
davinci-tldr	0.2338	0.1255	0.1568	0.2846	0.1529	0.1901	0.1412	6.82
davinci-summ	0.2202	0.1795	0.1954	0.2513	0.2058	0.2234	0.1917	11.41
LegPegasus	0.1964	0.1203	0.1335	0.2639	0.1544	0.1724	0.1943	13.14
LegPegasus-IN	0.2644	0.2430	0.2516	0.2818*	0.2620	0.2698	0.1967	18.66
LegLED	0.1115	0.1072	0.1085	0.1509	0.1468	0.1477	0.1424	8.43
LegLED-IN	0.2608	0.2531	0.2550	0.2769	0.2691*	0.2711*	0.2261	19.81
CaseSummarizer	0.2512	0.2269	0.2381	0.2316	0.2085	0.2191	0.1941	15.46
SummaRunner/RNN_RNN	0.2276	0.2103	0.2180	0.1983	0.1825	0.1893	0.2038	17.58
BertSum	0.2474	0.2177	0.2311	0.2243	0.1953	0.2082	0.2037	18.16

추상적 모델은 일반적으로 추출기 baselines보다 ROUGE, METEOR, BLEU에서 더 높은 성과를 보이나 많은 지표에서 LLM은 최상 도메인 특화 추상 모델보다 뒤처진다.
도메인 내 미세조정된 모델(LegPegasus-IN, LegLED-IN)은 비-IN 대비 성능이 향상되며 도메인 특화 미세조정의 가치를 강조한다.
추상적 모델과 LLM은 현저한 일관성 문제를 보이며 환각 및 잘못된 엔티티나 숫자 등으로 법적 용도에서의 신뢰성을 저하시킨다.
SummaC, NumPrec, NEPrec는 일부 도메인 모델에서 더 높은 일관성을 시사하지만 LegLED 계열에서 특히 환각이 나타난다.
전반적으로 사전 학습된 추상적 모델과 LLM은 판결 요약의 완전 자동 배포에 아직 준비되지 않았으며 인간-루프 워크플로우가 바람직하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.