[论文解读] Blind Judgement: Agent-Based Supreme Court Modelling With GPT
该论文训练一个 nine-agent GPT-2 基于系统来模拟 Roberts IV 最高法院的裁决和意见,在 96 个测试用例上实现高于随机的准确性,并揭示模型准确性与司法对先例的认同之间的联系。
We present a novel Transformer-based multi-agent system for simulating the judicial rulings of the 2010-2016 Supreme Court of the United States. We train nine separate models with the respective authored opinions of each supreme justice active ca. 2015 and test the resulting system on 96 real-world cases. We find our system predicts the decisions of the real-world Supreme Court with better-than-random accuracy. We further find a correlation between model accuracy with respect to individual justices and their alignment between legal conservatism & liberalism. Our methods and results hold significance for researchers interested in using language models to simulate politically-charged discourse between multiple agents.
研究动机与目标
- 展示一种基于多代理、语言模型的方法来模拟最高法院决策过程。
- 评估将任务分配给九个法官特定模型是否能提高预测性能。
- 调查法官对先例的一致性与模型预测准确性之间的关系。
提出的方法
- 构建九个独立的基于 GPT-2 的模型,分别对其在 2003-2016 年间 authored opinions 的法官进行训练。
- 采用一个两步训练过程,从基于一致意见的基础模型开始,然后对每位法官的模型进行微调。
- 使用以离散的 Python 风格字典结构化的提示进行训练,包含 issue、topic、opinion 和 decision 字段。
- 在 96 个保留案例上进行评估,使用 ROC 准确性和 Cohen’s kappa 来考虑类别分布偏差。
- 通过将 per-justice 的准确性与对先例投票频率的相关性(Pearson r)来量化意识形态对齐。
- 将多代理性能与在多数意见上微调的单代理基线进行比较。
实验结果
研究问题
- RQ1一个基于多代理的 GPT-2 系统能否比随机猜测更好地预测现实世界的最高法院裁决?
- RQ2将知识分布到单独的法官模型是否比单代理基线能提高预测准确性?
- RQ3法官与先例的一致性是否与模型的预测准确性之间存在可测量的关系?
主要发现
| 法官 | 准确率 | κ |
|---|---|---|
| Samuel Alito | 65% | 0.30 |
| Ruth Bader Ginsburg | 62% | 0.21 |
| Clarence Thomas | 59% | 0.18 |
| Stephen Breyer | 58% | 0.16 |
| John Roberts | 57% | 0.13 |
| Elena Kagan | 56% | 0.12 |
| Anthony Kennedy | 54% | 0.09 |
| Sonia Sotomayor | 51% | 0.00 |
| Antonin Scalia | 50% | -0.03 |
- 汇聚的多代理系统在 96 个测试用例上实现 60% 的准确性(kappa 约为 0.18)。
- 每位法官的准确性在九个模型中介于 50% 至 65% 之间(Alito 65%、Ginsburg 62%、Thomas 59%、Breyer 58%、Roberts 57%、Kagan 56%、Kennedy 54%、Sotomayor 51%、Scalia 50%)。
- 模型准确性更高的地区与较少推翻先例的法官之间存在中等相关性(r 约为 0.56)。
- 在多数意见上训练的单代理模型达到 54% 的准确性(kappa 约为 0.08),并且与 96 案测试集的总体重叠度较低(92.4% 对 68.5%)。
- 模型存在先例幻觉,在生成的意见中援引不存在或不正确的先例。
- 保守派法官在该设置中更易预测,表明意识形态对齐会影响可预测性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。