[論文レビュー] Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study
この論文は、RLHF整合のための DPO と PPO を理論的に分析し、対話とコード生成のベンチマークを通じて PPO が一貫して DPO を上回ることを実証的に示しており、CodeContest の 34B モデルを含む最先端の結果を報告する。
Reinforcement Learning from Human Feedback (RLHF) is currently the most widely used method to align large language models (LLMs) with human preferences. Existing RLHF methods can be roughly categorized as either reward-based or reward-free. Novel applications such as ChatGPT and Claude leverage reward-based methods that first learn a reward model and apply actor-critic algorithms, such as Proximal Policy Optimization (PPO). However, in academic benchmarks, state-of-the-art results are often achieved via reward-free methods, such as Direct Preference Optimization (DPO). Is DPO truly superior to PPO? Why does PPO perform poorly on these benchmarks? In this paper, we first conduct both theoretical and empirical studies on the algorithmic properties of DPO and show that DPO may have fundamental limitations. Moreover, we also comprehensively examine PPO and reveal the key factors for the best performances of PPO in fine-tuning LLMs. Finally, we benchmark DPO and PPO across a collection of RLHF testbeds, ranging from dialogue to code generation. Experiment results demonstrate that PPO is able to surpass other alignment methods in all cases and achieve state-of-the-art results in challenging code competitions. Our code is publicly available at https://github.com/openpsi-project/ReaLHF.
研究の動機と目的
- Direct Preference Optimization (DPO) が RLHF のために LLMs で本当に PPO を上回るのかを評価する。
- RLHF における DPO の根本的な制約と、PPO の性能に影響を与える要因を特定する。
- 対話およびコード生成の RLHF テストベッド全体で DPO と PPO をベンチマークし、実用的なベストプラクティスを特定する。
提案手法
- DPO 目的とその PPO との関係を、報酬ベースの最適化と報酬なし最適化の閉形式の接続を介して理論的に分析する。
- DPO における潜在的なバイアスとOODリスクを示すために、反例と合成実験を提供する。
- 複数のモデルサイズにわたって、実際の好みデータセット(SafeRLHF, HH-RLHF)およびコード生成ベンチマーク(APPS, CodeContest)を対象に、DPO、反復 DPO、PPO を比較し、広範な実証評価を実施する。
- PPO のアブレーション研究を実施し、RLHF の性能を高める要因(advantage normalization、large batch size、reference model の exponential moving average update)を特定する。
- DPO の分布シフト問題を緩和するため、データ分布の影響、ベースモデルの選択、反復的なラベリング戦略を検討する。
実験結果
リサーチクエスチョン
- RQ1実世界のデータ分布下で、LLM アライメントにおける RLHF において DPO は本当に PPO を上回るのだろうか?
- RQ2DPO が PPO に対して示す理論的および経験的制限は何か?
- RQ3PPO の RLHF 性能に最も影響を及ぼす要因は何か、そしてこれらを活用してベンチマーク全体で DPO を凌ぐことができるか?
- RQ4基盤モデル、好みデータの品質、および分布シフトは実践的に DPO の性能へどう影響するか?
- RQ5反復的 DPO やデータフィルタリング戦略は、コード生成のような難易度の高いタスクで DPO と PPO のギャップを埋められるか?
主な発見
- PPO は、対話およびコード生成タスクを含む研究対象のベンチマーク全体で一貫して DPO を上回る。
- DPO は out-of-distribution の応答に過適合することがあり、好みデータ分布が関連する出力をカバーしていない場合、バイアスのあるポリシーを示すことがある。
- 理論分析では、任意の PPO 派生解は DPO フレームワーク内で表現できることを示すが、DPO 目的はより大きなポリシークラスを認め、参照正則化下で PPO では到達できない潜在的に望ましくない解を許容する。
- アブレーション研究では、PPO が advantage normalization、large batch sizes、reference model の exponential moving average (EMA) 更新から利益を得ることを示し、難易度の高いタスクで EMA が追加の利得をもたらす。
- CodeContest データセットで 34B CodeLlama ベースのモデルに対して、PPO は最先端の性能を達成し、AlphaCode-41B を上回り、報告設定で顕著な 10@1k の改善を達成(16.4% から 22.4% へ)。
- 分布シフトを緩和する(Safe データでの SFT や反復的ラベリングなど)ことで DPO の性能を向上させることができるが、ほぼ完璧なアノテータがいても、難解なコード生成タスクでは DPO は依然として競争力が劣る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。