[논문 리뷰] Towards the Exploitation of LLM-based Chatbot for Providing Legal Support to Palestinian Cooperatives
본 논문은 팔레스타인 협동 조합 법 관련 문의에 응답하는 LLM 기반 챗봇을 구축하고, 전문가 답변과 비교 평가를 통해 벡터화(LlamaIndex)를 활용하여 대규모 법률 텍스트를 다루는 방식으로 전체 정확도 82%, F1 점수 79%를 보고합니다.
With the ever-increasing utilization of natural language processing (NLP), we started to witness over the past few years a significant transformation in our interaction with legal texts. This technology has advanced the analysis and enhanced the understanding of complex legal terminology and contexts. The development of recent large language models (LLMs), particularly ChatGPT, has also introduced a revolutionary contribution to the way that legal texts can be processed and comprehended. In this paper, we present our work on a cooperative-legal question-answering LLM-based chatbot, where we developed a set of legal questions about Palestinian cooperatives, associated with their regulations and compared the auto-generated answers by the chatbot to their correspondences that are designed by a legal expert. To evaluate the proposed chatbot, we have used 50 queries generated by the legal expert and compared the answers produced by the chart to their relevance judgments. Finding demonstrated that an overall accuracy rate of 82% has been achieved when answering the queries, while exhibiting an F1 score equivalent to 79%.
연구 동기 및 목표
- LLM 기반 챗봇이 팔레스타인 협동조합의 법적 문의를 어떻게 도울 수 있는지 동기 부여 및 탐구한다.
- 팔레스타인 법률 제20호(2017) 협동조합 및 관련 내규를 활용한 24/7 챗봇을 개발한다.
- 전문가가 생성한 질문과 비교 평가를 통해 챗봇의 정확도, 만족도 및 편향성을 평가한다.
- 대형 법적 문서로 인한 데이터 규모 확장 문제를 벡터화와 인덱싱으로 해결한다
제안 방법
- 대형 법적 문서를 색인화하고 질의하기 위해 LlamaIndex를 활용한 ChatGPT 기반 챗봇을 구성한다.
- Law No. 20/2017 및 관련 내규를 기반으로 두 개의 Q&A 데이터셋(인간 생성 및 ChatGPT 생성)을 만든다.
- 벡터 생성을 위해 600-token 청크, 최대 8,192-token 입력 및 50-token 중첩을 사용한다.
- 전문가 50개 질문에 대해 정확도, 만족도, 혼동 행렬 기반 분석으로 챗봇을 평가한다.
- 전문가 답변이 옳다고 가정할 때 정확도, 평균 만족도, 정밀도, 재현율, F1로 성능을 측정한다
실험 결과
연구 질문
- RQ1LLM 기반 챗봇이 팔레스타인 협동 조합 법에 관한 질문에 정확히 대답할 수 있는가?
- RQ2LlamaIndex를 통한 벡터화가 LLM이 대규모 법률 텍스트를 질의 가능하게 하는 데 얼마나 효과적인가?
- RQ3협동조합에 법적 지침을 제공하는 LLM 챗봇의 강점과 한계는 무엇인가?
- RQ4전문가 답변과 비교 평가될 때 챗봇의 사용자 만족도와 신뢰성은 어느 정도인가?
주요 결과
- 전반적 정확도 82% 달성(41/50 문제 정답).
- right/related 클래스의 F1 점수: 0.88; right/related에 대한 정밀도: 1.0(그들의 평가 가정하에).
- 평균 만족도: 법률 자문 점수 기준 78.3%.
- 혼동 행렬 결과는 'wrong' 클래스에 0, 'right/related'에 대한 재현율 0.79를 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.