QUICK REVIEW

[논문 리뷰] Blind Judgement: Agent-Based Supreme Court Modelling With GPT

Sil Hamilton|arXiv (Cornell University)|2023. 01. 12.

Artificial Intelligence in Law인용 수 12

한 줄 요약

요약: 이 논문은 Roberts IV 대법원 판결 및 의견을 시뮬레이션하기 위해 9-에이전트 GPT-2 기반 시스템을 훈련시키며, 96개의 테스트 케이스에서 무작위 예측보다 나은 정확도와 모델 정확도와 선례에 대한 법적 정합성 간의 연관성을 밝힙니다.

ABSTRACT

We present a novel Transformer-based multi-agent system for simulating the judicial rulings of the 2010-2016 Supreme Court of the United States. We train nine separate models with the respective authored opinions of each supreme justice active ca. 2015 and test the resulting system on 96 real-world cases. We find our system predicts the decisions of the real-world Supreme Court with better-than-random accuracy. We further find a correlation between model accuracy with respect to individual justices and their alignment between legal conservatism & liberalism. Our methods and results hold significance for researchers interested in using language models to simulate politically-charged discourse between multiple agents.

연구 동기 및 목표

다중 에이전트, 언어 모델 기반의 접근 방식을 시연하여 대법원 결정 내리기 시뮬레이션을 수행한다.
업무를 아홉 개의 재판관별 모델로 분산시키는 것이 예측 성능을 향상시키는지 평가한다.
판사의 판례 정합성과 모델 예측 정확도 간의 관계를 조사한다.

제안 방법

각 활성 재판관이 2003-2016년에 작성한 의견을 학습한 9개의 독립적인 GPT-2 기반 모델을 구성한다.
만장일치 기반 모델에서 시작하여 각 재판관 모델을 미세 조정하는 두 단계 학습 과정을 사용한다.
문제(issue), 주제(topic), 의견(opinion), 결정(decision) 필드를 포함하는 이산적 Python 유사 사전 구조의 프롬프트로 학습한다.
ROC 정확도와 Cohen의 kappa를 사용하여 96개의 보류 케이스를 평가하고 클래스 분포 편향을 보정한다.
재판관별 정확도와 판례에 반하는 표결 빈도를 상관시켜 이념적 정렬을 정량화한다(피어슨 r).
다수 의견으로 미세 조정된 단일 에이전트 기준선과 다중 에이전트 성능을 비교한다.

실험 결과

연구 질문

RQ1다중 에이전트 GPT-2 기반 시스템이 실제 대법원 판단을 확률보다 더 잘 예측할 수 있는가?
RQ2개별 재판관 모델에 지식을 분산시키는 것이 단일 에이전트 기준선에 비해 예측 정확도를 향상시키는가?
RQ3재판관의 판례 정합성과 모델의 예측 정확도 사이에 측정 가능한 관계가 있는가?

주요 결과

Justice	Accuracy	κ
Samuel Alito	65%	0.30
Ruth Bader Ginsburg	62%	0.21
Clarence Thomas	59%	0.18
Stephen Breyer	58%	0.16
John Roberts	57%	0.13
Elena Kagan	56%	0.12
Anthony Kennedy	54%	0.09
Sonia Sotomayor	51%	0.00
Antonin Scalia	50%	-0.03

집계된 다중 에이전트 시스템은 96개의 테스트 케이스에서 60% 정확도(kappa ≈ 0.18) 달성.
아홉 모델에서 재판관별 정확도는 50%에서 65% 사이로 분포(Alito 65%, Ginsburg 62%, Thomas 59%, Breyer 58%, Roberts 57%, Kagan 56%, Kennedy 54%, Sotomayor 51%, Scalia 50%).
모델 정확도가 높을수록 판례를 덮어쓰는 빈도가 낮은 재판관과의 중간 정도의 상관관계(r ≈ 0.56)가 존재한다.
다수 의견으로 학습된 단일 에이전트 모델은 54% 정확도(kappa ≈ 0.08) 달성 및 96-케이스 테스트 세트와의 인구 중복이 더 낮다(92.4% vs 68.5%).
모델은 생성된 의견에서 존재하지 않거나 잘못된 선례를 인용하는 선례 환각 현상을 보인다.
보수적 재판관은 이 설정에서 더 예측 가능하며, 이념적 정합성이 예측 가능성에 영향을 미친다는 시사점을 준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.