Skip to main content
QUICK REVIEW

[論文レビュー] Scaling Laws for Reward Model Overoptimization

Leo Gao, John Schulman|arXiv (Cornell University)|Oct 19, 2022
Reinforcement Learning in Robotics被引用数 35
ひとこと要約

本論文は、報酬モデルの過剰最適化が RL および Best-of-N 最適化下でどのように振る舞うかについてのスケーリング法則を実験的に導出し、合成の gold 報酬を用いて RM のサイズ、データ、ポリシーサイズにわたる影響を定量化する。

ABSTRACT

In reinforcement learning from human feedback, it is common to optimize against a reward model trained to predict human preferences. Because the reward model is an imperfect proxy, optimizing its value too much can hinder ground truth performance, in accordance with Goodhart's law. This effect has been frequently observed, but not carefully measured due to the expense of collecting human preference data. In this work, we use a synthetic setup in which a fixed "gold-standard" reward model plays the role of humans, providing labels used to train a proxy reward model. We study how the gold reward model score changes as we optimize against the proxy reward model using either reinforcement learning or best-of-$n$ sampling. We find that this relationship follows a different functional form depending on the method of optimization, and that in both cases its coefficients scale smoothly with the number of reward model parameters. We also study the effect on this relationship of the size of the reward model dataset, the number of reward model and policy parameters, and the coefficient of the KL penalty added to the reward in the reinforcement learning setup. We explore the implications of these empirical results for theoretical considerations in AI alignment.

研究の動機と目的

  • 代理報酬モデルを最適化することが真の(gold)報酬にどのように影響するかを理解する。
  • 報酬モデルのサイズ、データ、およびポリシーサイズに応じた過剰最適化のスケーリングを特徴づける。
  • 過剰最適化と効率の観点で、強化学習と Best-of-N 採取を比較する。
  • RLHF における AI アラインメントと Goodhart の法則への含意を探る。
  • 異なる構成下で gold RM スコアの予測スケーリング形を提供する。

提案手法

  • 比較をラベリングし代理 RM を訓練するために、固定の gold 報酬モデルを用いた合成設定を使用する。
  • PPO ベースの強化学習または Best-of-N 採取を用いて代理報酬モデルを最適化する。
  • 最適化の進行度を表す距離 d = sqrt(KL(pi || pi_init)) を定義し、d に関するスケーリング形を用いる。
  • BoN および RL における gold RM スコア R(d) の関数形を適合させる: R_BoN(d) = d(α_BoN − β_BoN d) と R_RL(d) = d(α_RL − β_RL log d)。
  • 代理 RM パラメータ、データサイズ、出力 KL ペナルティに応じて α, β がどう変化するかを調査し、RM スコアの再校正を行う。

実験結果

リサーチクエスチョン

  • RQ1Gold 報酬スコアは、異なる方法(BoN 対 RL)での最適化進行度の関数としてどう変化するか?
  • RQ2BoN と RL の過剰最適化の関数形は何か、経験的データにどれくらい適合するか?
  • RQ3RM サイズ、RM データサイズ、ポリシーサイズはスケーリング係数と最大 gold スコアにどう影響するか?
  • RQ4RL における KL ペナルティが gold 報酬のフロンティアと代理- gold ギャップに与える影響は?
  • RQ5これらのスケーリング法則が RLHF および AI アラインメント理論(Goodhart など)に与える含意は?

主な発見

  • BoN の場合、gold 報酬は R_BoN(d) = d(α_BoN − β_BoN d) にスケールし、係数は RM サイズとデータに応じて滑らかに変化する。
  • RL の場合、gold 報酬は R_RL(d) = d(α_RL − β_RL log d) にスケールし、α_RL は概ね RM サイズに依存せず、β_RL は RM の特性に従ってスケールする。
  • 強化学習は、KL 距離で評価すると、BoN と比較して最適化と過剰最適化の両方で遅い傾向がある。
  • BoN と RL の両方の α および β の係数は、代理 RM パラメータ数とデータ量とともに滑らかにスケールし、概ね対数的傾向に従う。
  • KL ペナルティは RL で代理 RM スコアを上げるが、gold RM スコアのフロンティアを改善せず、この設定では明示的な KL ペナルティの有用性は限られることを示唆する。
  • より大きなポリシーは過剰最適化の量を著しく増やさないが、全体的な gold パフォーマンスとロバスト性を向上させる。代理と gold のスコア差はポリシーサイズ間でほぼ同じまま。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。