[論文レビュー] Generalisation of RLHF under Reward Shift and Clipped KL Regularisation
RLHFの報酬シフトとクリップされたKL正則化を説明する一般化理論を提示し、一般化誤差をサンプリング、報酬シフト、KLクリッピングの成分に分解。現実的な較正と予算配分の指針を提供。
Alignment and adaptation in large language models heavily rely on reinforcement learning from human feedback (RLHF); yet, theoretical understanding of its generalisability remains premature, especially when the learned reward could shift, and the KL control is estimated and clipped. To address this issue, we develop generalisation theory for RLHF that explicitly accounts for (1) \emph{reward shift}: reward models are trained on preference data from earlier or mixed behaviour policies while RLHF optimises the current policy on its own rollouts; and (2) \emph{clipped KL regularisation}: the KL regulariser is estimated from sampled log-probability ratios and then clipped for stabilisation, resulting in an error to RLHF. We present generalisation bounds for RLHF, suggesting that the generalisation error stems from a sampling error from prompts and rollouts, a reward shift error, and a KL clipping error. We also discuss special cases of (1) initialising RLHF parameters with a uniform prior over a finite space, and (2) training RLHF by stochastic gradient descent, as an Ornstein-Uhlenbeck process. The theory yields practical implications in (1) optimal KL clipping threshold, and (2) budget allocation in prompts, rollouts, and preference data.
研究の動機と目的
- 報酬シフトとKLクリッピングの下でのRLHF一般化に関する理論的理解の欠如を動機づけ、形式化する。
- 誤差を三つの解釈可能な源泉に分解するRLHFパイプラインの高確率一般化境界を開発する。
- プロンプット、ロールアウト、好みにわたる最適なKLクリッピング閾値と予算配分を含む実践的含意を提供する。
- 特殊ケース分析とデータ依存PAC-Bayes境界を提供して、理論と一般的なトレーニングパラダイムを結びつける。
提案手法
- 報酬モデルを好みデータで訓練し、報酬を最大化するようにポリシーを最適化する二段階のRLHFとしてモデル化する。
- サンプルごとの対数比クリッピングを伴うクリップドKL正則化を導入し、その目的関数と安定性への影響を分析する。
- チェンジ・オブ・ミージャーとPAC-Bayesツールを用いて、サンプリング誤差、報酬シフト誤差、KLクリッピング誤差の三項一般化誤差分解を導出する。
- 非自明なデータ収集設定の下で、母集団目的関数に対する経験的目的の高確率境界を確立する。
- ポリシー固定の一般化境界と、後続ポスターリオに対して一様に成り立つデータ依存PAC-Bayes境界を提供する。
- 有限仮説空間上の一様事前分布やSGD/Ornstein-Uhlenbeck過程に基づく事前分布など、特別なケースを論じる。
実験結果
リサーチクエスチョン
- RQ1報酬モデルがデプロイメントポリシーとは異なる分布からデータを得て訓練される場合、RLHF一般化はどのように境界付けできるか?
- RQ2KL正規化が推定・クリップされる場合、RLHFにおける一般化誤差の異なる源は何か?
- RQ3バイアスと分散のバランスをとるために、クリッピング閾値と評価予算(プロンプト、ロールアウト、好み)はどう選択すべきか?
- RQ4データ依存境界(PAC-Bayes)を導入して、事後モデル選択や一般的な最適化枠組み(例:SGD)に対応できるか?
主な発見
- 一般化誤差は三つの項に分解される:サンプリング誤差、報酬シフト誤差、KLクリッピング誤差。
- ロールアウトとプロンプトのサンプリング誤差は評価予算とクリッピング閾値に比例してスケールし、明示的な境界を生む。
- 報酬シフト誤差は、報酬訓練データとデプロイメント分布間の分布シフトを捉えるカイ二乗のカバレッジ係数によって増幅される。
- KLクリッピングは、対数比の尾部に依存するバイアス項を導入し、データが増えても消失しない。
- 予算を考慮した最適なKLクリッピング閾値が提案され、バイアスと分散を分位ベースの規則で調整する。
- データ依存PAC-Bayes境界が提供され、リスクをポスターリオと事前分布間のKLダイバージェンスおよび同じ三つの誤差源に結びつける。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。