[論文レビュー] Gradient Regularization Prevents Reward Hacking in Reinforcement Learning from Human Feedback and Verifiable Rewards
本論文は勾配正則化(GR)を提案し、代理報酬が正確な領域へポリシー更新を偏らせることで報酬ハックを緩和し、RLHFおよびRLVRにおけるKLペナルティの代替となる可能性がある。
Reinforcement Learning from Human Feedback (RLHF) or Verifiable Rewards (RLVR) are two key steps in the post-training of modern Language Models (LMs). A common problem is reward hacking, where the policy may exploit inaccuracies of the reward and learn an unintended behavior. Most previous works address this by limiting the policy update with a Kullback-Leibler (KL) penalty towards a reference model. We propose a different framing: Train the LM in a way that biases policy updates towards regions in which the reward is more accurate. First, we derive a theoretical connection between the accuracy of a reward model and the flatness of an optimum at convergence. Gradient regularization (GR) can then be used to bias training to flatter regions and thereby maintain reward model accuracy. We confirm these results by showing that the gradient norm and reward accuracy are empirically correlated in RLHF. We then show that Reference Resets of the KL penalty implicitly use GR to find flatter regions with higher reward accuracy. We further improve on this by proposing to use explicit GR with an efficient finite-difference estimate. Empirically, GR performs better than a KL penalty across a diverse set of RL experiments with LMs. GR achieves a higher GPT-judged win-rate in RLHF, avoids overly focusing on the format in rule-based math rewards, and prevents hacking the judge in LLM-as-a-Judge math tasks.
研究の動機と目的
- 代理報酬(PR)が不完全なRLHF/RLVR設定で報酬ハックを動機づけて formalize する。
- 報酬の正確さと最適解の平坦性の理論的な関連を確立し、REGベースの学習を導く。
- 実用的なGR技術(Reference Resetsを介した暗黙的GRと有限差分による明示的GR)を提案し、PRの正確さと真の報酬を最大化する。
- GRをKLペナルティと比較してRLHF/RLVRタスクで検証し、RM品質に対するロバスト性を示す。
提案手法
- eRとして代理報酬を用いるRLを定式化し、ポリシー目的に代理報酬の期待値とポリシー目的の勾配正則化を組み合わせる。
- 平坦な最適解とPR正確さ(Bradley–Terry損失経由)およびリプシッツ連結なPR仮定下の行動空間でのロバスト性との理論的関係を確立する。
- Reference Resetsを介した暗黙的GRを実用的な正則化機構として導入し、標準KLペナルティとベンチマーク全体で比較する。
- 有限差分勾配推定を用いた明示的GRを提案し、計算効率のためトランスフォーマーブロックを選択的に摂動させてRLHF/RLVRに適用する。
- TL;DR、AlpacaFarm、GSM8K、MATHスタイルのタスクで、LLMジャッジとルールベース報酬を用いた標準ベースライン(DPO、参照リセット付きDPO、KLを用いたGRPO)とGRを評価する。
- GRはKLペナルティを置換し得ることを示し、PR正確さと最終ポリシー性能を向上させる。
実験結果
リサーチクエスチョン
- RQ1勾配正則化は代理報酬が正確な領域へポリシー更新を偏らせ、報酬ハックを減らすか。
- RQ2最適化ランドスケープの平坦さとRLHF/RLVR設定における代理報酬の正確さの理論的関係は何か。
- RQ3暗黙的GR(Reference Resets)と明示的GRおよびKLペナルティは、RLHF/RLVRの性能とPRのロバスト性にどのように影響するか。
- RQ4GRは代理報酬品質と報酬ジャーナル形式(LLMをジャッジとして使用 vs ルールベース報酬)に対してロバストか。
- RQ5明示的GRは実践でKLペナルティを置換し、トレーニングの安定性を維持しつつ最終指標を改善できるか。
主な発見
| Model Family | Size | SFT | DPO | TR-DPO | GRPO | GRPO + Ref. Reset |
|---|---|---|---|---|---|---|
| Pythia | 1B | 17.8% | 45.9% | 45.5% | 62.2% | 78.1% |
| Pythia | 2.8B | 25.6% | 68.0% | 66.6% | 68.5% | 76.4% |
| Qwen | 0.5B | 16.4% | 48.5% | 49.7% | 54.1% | 70.2% |
| Qwen | 1.5B | 28.1% | 71.6% | 73.4% | 82.5% | 82.0% |
- GRは最適化を平坦な最大値へバイアスし、経験的に代理報酬正確さの向上と報酬ハックの減少と相関する。
- Reference Resets(暗黙的GR)は標準KLペナルティをRLHFのベースラインとモデルスケール全体で一貫して上回る。
- 有限差分GRはKLベースのアプローチに匹敵するか、それを上回り、RLHFおよびRLVRタスクで勝率を改善し、PRハッキングを抑制する。
- GRはルールベースおよびLLMジャッジ設定での形式化や簡易報酬に過度に依存するのを抑え、GSM8KやMATHのようなタスクでRL後学習と組み合わせたとき、より堅牢な性能を発揮する。
- GRはPR正確さとハイパーパラメータに対してロバストであり、トレーニング中の勾配正則化を課すことでより弱いRMを補える。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。