Skip to main content
QUICK REVIEW

[論文レビュー] Democratic Preference Alignment via Sortition-Weighted RLHF

Suvadip Sana, Jinzhou Wu|arXiv (Cornell University)|Feb 4, 2026
Game Theory and Voting Systems被引用数 1
ひとこと要約

本論文は、DemPOを導入し、デモグラフィック的に代表性のあるパネルをサンプリングするHard Panelと、 inclusion probability によるウェイト付けを行うSoft Panelという2つの訓練手法を提案する。これらは、標準のフルプールRLHFよりもパネルベースの手法が、モデルサイズと集約方法に依存せず優れた性能を示し、パネルの利得はモデル容量とともに拡大する。

ABSTRACT

Whose values should AI systems learn? Preference based alignment methods like RLHF derive their training signal from human raters, yet these rater pools are typically convenience samples that systematically over represent some demographics and under represent others. We introduce Democratic Preference Optimization, or DemPO, a framework that applies algorithmic sortition, the same mechanism used to construct citizen assemblies, to preference based fine tuning. DemPO offers two training schemes. Hard Panel trains exclusively on preferences from a quota satisfying mini public sampled via sortition. Soft Panel retains all data but reweights each rater by their inclusion probability under the sortition lottery. We prove that Soft Panel weighting recovers the expected Hard Panel objective in closed form. Using a public preference dataset that pairs human judgments with rater demographics and a seventy five clause constitution independently elicited from a representative United States panel, we evaluate Llama models from one billion to eight billion parameters fine tuned under each scheme. Across six aggregation methods, the Hard Panel consistently ranks first and the Soft Panel consistently outperforms the unweighted baseline, with effect sizes growing as model capacity increases. These results demonstrate that enforcing demographic representativeness at the preference collection stage, rather than post hoc correction, yields models whose behavior better reflects values elicited from representative publics.

研究の動機と目的

  • 便益の高い代替サンプル評価者プールに由来するバイアスの是正を目的とする。
  • アルゴリズム的ソーティションを導入し、デモグラフィックに代表性のある学習信号を構築する。
  • Hard Panel および Soft Panel の訓練方式とその目的を提案する。
  • PRISMデータと代表的な米国憲法を用いた代表性指向の訓練を評価する。
  • パネルベースの利得がモデルサイズでどうスケールするかを分析し、診断を提供する。

提案手法

  • LEXIMINソーティションを用いて、デモ marginals に一致するクォータ feasibile パネルの lottery を構築する。
  • Hard Panel訓練を、サンプルされた単一パネルS上で、評価者ごとの正規化をN_iで行い定義する。
  • Soft Panelは、ソーティションの抽選からの inclusion probability π_i により各評価者iをウェイト付けして定義する。
  • Soft Panelの目的を、ウェイトw_iでの加重を用いたHard Panelの期待目的と関連づける。
  • 多ターンPRISMデータ上でDirect Preference Optimization (DPO)を用いてモデルを訓練する。
  • 6つの集約方法(Bradley–Terry, Plackett–Luce, Borda, Copeland, Kemeny-Young, Mallows)を横断して評価し、75法条憲法で評価する。
Figure 1 : The DemPO pipeline for democratic preference alignment. A biased, self-selected pool of data labelers is transformed into a demographically representative mini-public via algorithmic sortition subject to population-derived quota constraints. Preferences from this representative panel (Har
Figure 1 : The DemPO pipeline for democratic preference alignment. A biased, self-selected pool of data labelers is transformed into a demographically representative mini-public via algorithmic sortition subject to population-derived quota constraints. Preferences from this representative panel (Har

実験結果

リサーチクエスチョン

  • RQ1好み収集段階でデモグラフィック代表性を強制すると、モデルの挙動は代表的な公衆の価値観へと傾くか。
  • RQ2Hard PanelとSoft Panel訓練は、フルPRISMおよびUS-Repベースラインと比較して、モデルサイズごとにどう異なるか。
  • RQ3代表性を意識した目的は、代表的な公衆の入力から導かれた憲法と整合するか。
  • RQ4パネルベースの利得は、モデルサイズと集約方法でどうスケールするか。

主な発見

  • Hard Panelは、集約方法を問わず最高の順位を得る。
  • Soft Panelは、ウェイトなしのFull PRISMベースラインより一貫して改善を示す。
  • Hard PanelはUS-Repを上回り、モデルサイズとともに利得が拡大する。
  • Soft PanelのFull PRISMに対する利得は、モデルサイズの増加とともに拡大する(1B→3B→8B)。
  • 判定の信頼性は、ランキング間の一致が顕著であることを示す( Kendall τ≈0.776, Fleiss’ κ≈0.710)。
  • 自動判定による憲法評価は、パネルベースの訓練が代表的な公衆の価値と一致することを示唆する。
Figure 2 : Model ranking under multiple aggregation methods (Llama-3.1-8B). Left: Borda and Copeland scores with 95% bootstrap confidence intervals, and Kemeny consensus summarized as rank-position probabilities under bootstrap resampling. Right: Bradley–Terry and Plackett–Luce log-ability scores wi
Figure 2 : Model ranking under multiple aggregation methods (Llama-3.1-8B). Left: Borda and Copeland scores with 95% bootstrap confidence intervals, and Kemeny consensus summarized as rank-position probabilities under bootstrap resampling. Right: Bradley–Terry and Plackett–Luce log-ability scores wi

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。