[論文レビュー] RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment
RAFT は、プロンプトごとに複数の出力をサンプリングし、報酬モデルでランク付けし、上位ランクのサンプルを微調整することで、PPOベースのRLHFより安定性と効率を提供するフレームワークです。LLM や拡散モデル風の設定において、報酬指標を改善しつつ、妥当な困惑度と出力の多様性を維持します。
Generative foundation models are susceptible to implicit biases that can arise from extensive unsupervised training data. Such biases can produce suboptimal samples, skewed outcomes, and unfairness, with potentially serious consequences. Consequently, aligning these models with human ethics and preferences is an essential step toward ensuring their responsible and effective deployment in real-world applications. Prior research has primarily employed Reinforcement Learning from Human Feedback (RLHF) to address this problem, where generative models are fine-tuned with RL algorithms guided by a human-feedback-informed reward model. However, the inefficiencies and instabilities associated with RL algorithms frequently present substantial obstacles to the successful alignment, necessitating the development of a more robust and streamlined approach. To this end, we introduce a new framework, Reward rAnked FineTuning (RAFT), designed to align generative models effectively. Utilizing a reward model and a sufficient number of samples, our approach selects the high-quality samples, discarding those that exhibit undesired behavior, and subsequently enhancing the model by fine-tuning on these filtered samples. Our studies show that RAFT can effectively improve the model performance in both reward learning and other automated metrics in both large language models and diffusion models.
研究の動機と目的
- 生成系基盤モデルを人間の嗜好と倫理に整合させる動機付け。
- 安定性、メモリ、データ要件の点で RLHF/PPO の制約を示す。
- 報酬ベースのサンプルランキングと監視付き微調整を活用する堅牢な代替案として RAFT を提案。
- 大規模言語モデルと拡散モデル風システムへの RAFT の適用性を示す。
- 標準的な整合性ベンチマークで Baseline と比較して RAFT の性能を定量化する。
提案手法
- 現在のモデルを用いて、プロンプトのバッチを反復的に収集し、各プロンプトにつき K 個の応答を生成する。
- 各プロンプトの K 応答を報酬モデルでランク付けし、トップスコアのサンプルを選択する。
- フィルタリングされた高報酬サンプルでモデルを微調整し、収束するまでこの3工程を繰り返す。
- 安定性を向上させ、メモリ負担を軽減するため、データ収集をモデル更新と分離して強調する。
- 初期モデルからの逸脱を抑制するKLペナルティによる流暢性/多様性正則化を任意で導入。
- ハイパーパラメータの指針(b, K, lambda, beta)を提供し、実装上の考慮事項を議論する。
実験結果
リサーチクエスチョン
- RQ1RAFT は PPO ベースの RLHF と比較して競争力のある整合性能を達成しつつ、安定性の向上とメモリ要件の削減を実現できるか?
- RQ2RAFT の主要なハイパーパラメータ(K, lambda, beta)は報酬、困惑度、多様性指標にどのように影響するか?
- RQ3報酬ノイズと報酬スケーリングに対して RAFT は頑健か、 ranking-based フィルタリングは報酬ハッキングの緩和に役立つか?
- RQ4RAFT は LLM 以外の拡散モデル風ジェネレータへ拡張可能か?
主な発見
| モデル | 整合 | 報酬 | ppl | msttr-100 | distinct 1 | distinct 2 | unique 1 | unique 2 | 長さ |
|---|---|---|---|---|---|---|---|---|---|
| HH-RLHF-Rejected | - | 0.156 | - | 0.623 | 0.037 | 0.284 | 10740 | 130082 | 144.3 |
| HH-RLHF-Chosen | - | 1.873 | - | 0.624 | 0.036 | 0.282 | 10702 | 135767 | 154.2 |
| LLaMA-7B | - | -0.435 | 4.781 | 0.579 | 0.032 | 0.258 | 7651 | 96071 | 119.9 |
| LLaMA-7B | SFT | 0.772 | 3.781 | 0.597 | 0.031 | 0.250 | 8198 | 110759 | 145.4 |
| LLaMA-7B-SFT | PPO | 2.077 | 4.156 | 0.597 | 0.033 | 0.262 | 7370 | 102437 | 127.8 |
| LLaMA-7B-SFT | RAFT-K32- λ 1.0 | 2.294 | 4.031 | 0.611 | 0.032 | 0.258 | 8691 | 123576 | 156.2 |
- RAFT に整合されたモデルは、HH-RLHF データ上で開始時の SFT および PPO ベースラインより平均報酬が高い。
- lambda 1.0 のRAFT-K32 は最高の平均報酬 (2.294) を達成しつつ、適度な困惑度 (4.031) を維持する。
- 報告された実験では、PPO よりも報酬と困惑度のバランスが良いことを RAFT が示している。
- K を増やすと一般に best-of-K の性能と多様性指標が向上する一方、推論時間が増加する。
- RAFT はハイパーパラメータ設定を跨いで安定性を示し、報酬スケーリングとノイズに対する頑健性は PPO と比較して高い。
- GPT-4 と人間の評価は自動指標と一致し、対ペア評価で RAFT 整合モデルを支持している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。