[論文レビュー] Blind Judgement: Agent-Based Supreme Court Modelling With GPT
この論文は九人エージェントGPT-2ベースのシステムを訓練し Roberts IV 最高裁判所の判決と意見を模倣させ、96のテストケースでランダムを超える精度を達成し、モデルの精度と前例への司法の整合性との関連を明らかにする。
We present a novel Transformer-based multi-agent system for simulating the judicial rulings of the 2010-2016 Supreme Court of the United States. We train nine separate models with the respective authored opinions of each supreme justice active ca. 2015 and test the resulting system on 96 real-world cases. We find our system predicts the decisions of the real-world Supreme Court with better-than-random accuracy. We further find a correlation between model accuracy with respect to individual justices and their alignment between legal conservatism & liberalism. Our methods and results hold significance for researchers interested in using language models to simulate politically-charged discourse between multiple agents.
研究の動機と目的
- 最高裁判決の意思決定をシミュレートするためのマルチエージェントかつ言語モデルベースのアプローチを実証する。
- 9つの司法長の専門モデルに知識を分散することで予測性能が改善されるかを評価する。
- 前例への司法の整合性とモデルの予測精度との関係を調査する。
提案手法
- 2003-2016年に各Active Justiceが著述した意見を訓練データとした9つの独立したGPT-2ベースモデルを構築する。
- 全会一致ベースのモデルから始め、次に各正義ごとのモデルをファインチューニングする二段階の訓練プロセスを用いる。
- issue、topic、opinion、decisionフィールドを含む離散的なPython風辞書のようなプロンプトを用いて訓練する。
- ROC精度とクーパーのκを用いて、クラス分布バイアスを考慮しつつ96件のホールドアウトケースで評価する。
- 各正義の精度を、前例に対する voting の頻度と相関させることで理念的整合性を定量化する(Pearson r)。
- 多数決意見でファインチューニングした単一エージェントベースラインと、マルチエージェントの性能を比較する。
実験結果
リサーチクエスチョン
- RQ1マルチエージェントGPT-2ベースのシステムは実世界の最高裁判決を運勝率以上の精度で予測できるか?
- RQ2個別の正義モデルに知識を分散することは、単一エージェントのベースラインと比較して予測精度を改善するか?
- RQ3正義の前例への整合性とモデルの予測精度との間に測定可能な関係が存在するか?
主な発見
| 判事 | 精度 | κ |
|---|---|---|
| Samuel Alito | 65% | 0.30 |
| Ruth Bader Ginsburg | 62% | 0.21 |
| Clarence Thomas | 59% | 0.18 |
| Stephen Breyer | 58% | 0.16 |
| John Roberts | 57% | 0.13 |
| Elena Kagan | 56% | 0.12 |
| Anthony Kennedy | 54% | 0.09 |
| Sonia Sotomayor | 51% | 0.00 |
| Antonin Scalia | 50% | -0.03 |
- 集約されたマルチエージェントシステムは96件のテストケースで60%の精度を達成(κ ≈ 0.18)を示す。
- 9つのモデル全体で正義別の精度は50%〜65%の範囲(Alito 65%、Ginsburg 62%、Thomas 59%、Breyer 58%、Roberts 57%、Kagan 56%、Kennedy 54%、Sotomayor 51%、Scalia 50%)。
- モデルの精度が高いほど、前例をより頻繁に覆さない正義との間に中程度の相関(r ≈ 0.56)が存在する。
- 多数決意見で訓練された単一エージェントモデルは54%の精度(κ ≈ 0.08)を達成し、96ケースのテストセットとの人口オーバーラップは低い(92.4% vs 68.5%)。
- モデルは前例の幻像を示し、生成された意見の中で存在しないまたは不正確な前例を引用する。
- 保守系の正義はこの設定でより予測可能であり、理念的整合性が予測可能性に影響を与えることを示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。