Skip to main content
QUICK REVIEW

[論文レビュー] Statistical Rejection Sampling Improves Preference Optimization

Tianqi Liu, Yao Zhao|arXiv (Cornell University)|Sep 13, 2023
Topic Modeling被引用数 7
ひとこと要約

本論文は推定されたターゲット最適ポリシーから好みデータをサンプリングする統計的拒絶サンプリング最適化(RSO)を導入し、DPOとSLiC損失を統一、RSOがこれらの手法を複数のタスクと評価で一貫して上回ることを示します。

ABSTRACT

Improving the alignment of language models with human preferences remains an active research challenge. Previous approaches have primarily utilized Reinforcement Learning from Human Feedback (RLHF) via online RL methods such as Proximal Policy Optimization (PPO). Recently, offline methods such as Sequence Likelihood Calibration (SLiC) and Direct Preference Optimization (DPO) have emerged as attractive alternatives, offering improvements in stability and scalability while maintaining competitive performance. SLiC refines its loss function using sequence pairs sampled from a supervised fine-tuned (SFT) policy, while DPO directly optimizes language models based on preference data, foregoing the need for a separate reward model. However, the maximum likelihood estimator (MLE) of the target optimal policy requires labeled preference pairs sampled from that policy. DPO's lack of a reward model constrains its ability to sample preference pairs from the optimal policy, and SLiC is restricted to sampling preference pairs only from the SFT policy. To address these limitations, we introduce a novel approach called Statistical Rejection Sampling Optimization (RSO) that aims to source preference data from the target optimal policy using rejection sampling, enabling a more accurate estimation of the optimal policy. We also propose a unified framework that enhances the loss functions used in both SLiC and DPO from a preference modeling standpoint. Through extensive experiments across three diverse tasks, we demonstrate that RSO consistently outperforms both SLiC and DPO on evaluations from both Large Language Model (LLM) and human raters.

研究の動機と目的

  • オフラインアプローチを用いて人間の嗜好と一致させる言語モデルの整合性を改善し、完全なRLHFの複雑さを回避する。
  • 嗜好モデル化の観点からDPOとSLiCの損失式を統一する。
  • 推定された最適ポリシーから嗜好データを統計的拒絶サンプリングでサンプルするスケーラブルな方法を開発する。
  • 複数のタスクと評価で最強のオフラインベースラインに対するRSOの実証的利得を示す。

提案手法

  • Bradley–Terryフレームワークの下で嗜好データモデリングを定式化し、最適ポリシーと対ペア報酬を関連付ける。
  • 応答ペアの嗜好確率を推定するためのペアワイズ報酬ランキングモデルを訓練する。
  • 提案としてSFTポリシーを提案分布として使用し、推定された最適ポリシーからサンプルを生成する統計的拒絶サンプリングを導入し、報酬モデルでラベリングする。
  • 最適ポリシーに適合させるために、ロジスティック回帰とヒンジの複数の損失関数およびデータペア構成を探索する。
  • 共通の嗜好モデリング観点(ロジスティック対ヒンジ)でDPOとSLiCの損失を統一し、それらの挙動を比較する。
  • RSOをより大きなポリシーモデル(T5-XXL)に適用し、代理指標、金標、AutoSxS、ヒューマン指標で評価してスケーラビリティを実証する。
Figure 1: RSO first fits a pairwise reward-ranking model from human preference data. This model is later applied to generate preference pairs with candidates sampled from the optimal policy, followed by a preference optimization step to align sequence likelihood towards preferences.
Figure 1: RSO first fits a pairwise reward-ranking model from human preference data. This model is later applied to generate preference pairs with candidates sampled from the optimal policy, followed by a preference optimization step to align sequence likelihood towards preferences.

実験結果

リサーチクエスチョン

  • RQ1推定されたターゲット最適ポリシーから嗜好データをサンプルして、最適ポリシー自体をよりよく推定するにはどうすればよいか。
  • RQ2拒絶サンプリングベースのデータ生成と報酬モデルラベリングは、DPOおよびSLiCと比べてポリシー最適化を改善するか。
  • RQ3異なる損失式(ロジスティック対ヒンジ)とデータ分布(直接、SFTサンプルランク、RSOサンプルランク)が人間の嗜好への整合性にどう影響するか。
  • RQ4RSOはより大きなポリシーモデルへスケール可能で、タスクと評価モダリティ全体で整合性を維持・向上できるか。

主な発見

  • RSOのバリアントは、タスクと評価指標を通じてDPOおよびSLiCのベースラインを一貫して上回る。
  • サンプリング戦略の中で、rso-sample-rankがdirectおよびsft-sample-rankよりも利益をもたらす。
  • RSOはより大きなポリシーモデル(T5-XXL)へスケールし、AutoSxSをDPOよりも二つのタスクで改善する。
  • ヒューマン評価では、RSO-sample-rankがシグモイド正規化またはヒンジ正規化損失とともに、directまたはsft-sample-rankベースラインを上回る。
  • ガンマ(損失温度)とベータ(拒絶サンプリング温度)のハイパーパラメータの選択は意味のある効果を持ち、中程度の値がしばしば最良の性能を発揮する。
Figure 2: Statistical rejection sampling illustration. There are three curves in the figure: $M$ times SFT policy, reward, optimal policy. The sample is first generated by SFT policy, then gets accepted or rejected depending on whether a uniform random variable locates in acceptance or rejection reg
Figure 2: Statistical rejection sampling illustration. There are three curves in the figure: $M$ times SFT policy, reward, optimal policy. The sample is first generated by SFT policy, then gets accepted or rejected depending on whether a uniform random variable locates in acceptance or rejection reg

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。