[論文レビュー] RRHF: Rank Responses to Align Language Models with Human Feedback without tears
RRHFは、モデル下での対数確率に基づいて複数のサンプリング済み応答をランキングし、ランキング損失と監督付き微調整を用いて言語モデルを人間の嗜好と整合させる。1–2つのモデルとさまざまな応答源のみを使用する。実装と学習要件を簡素化しつつ、PPOと同等の性能を達成する。
Reinforcement Learning from Human Feedback (RLHF) facilitates the alignment of large language models with human preferences, significantly enhancing the quality of interactions between humans and models. InstructGPT implements RLHF through several stages, including Supervised Fine-Tuning (SFT), reward model training, and Proximal Policy Optimization (PPO). However, PPO is sensitive to hyperparameters and requires multiple models in its standard implementation, making it hard to train and scale up to larger parameter counts. In contrast, we propose a novel learning paradigm called RRHF, which scores sampled responses from different sources via a logarithm of conditional probabilities and learns to align these probabilities with human preferences through ranking loss. RRHF can leverage sampled responses from various sources including the model responses from itself, other large language model responses, and human expert responses to learn to rank them. RRHF only needs 1 to 2 models during tuning and can efficiently align language models with human preferences robustly without complex hyperparameter tuning. Additionally, RRHF can be considered an extension of SFT and reward model training while being simpler than PPO in terms of coding, model counts, and hyperparameters. We evaluate RRHF on the Helpful and Harmless dataset, demonstrating comparable alignment performance with PPO by reward model score and human labeling. Extensive experiments show that the performance of RRHF is highly related to sampling quality which suggests RRHF is a best-of-n learner. Codes available at https://github.com/GanjinZero/RRHF.
研究の動機と目的
- LLMsを人間の嗜好に合わせて整合させるためのPPOより単純なRLHFの代替案を提案する。
- 多様なソースからの複数の応答の対数確率に基づくランキングを用いるRRHFを提案する。
- RRHFがより少ないモデル数とハイパーパラメータでPPOと同等の整合を達成することを示す。
- AnthropicのHelpful and HarmlessデータセットでRRHFの有効性を示し、サンプリング品質の影響を分析する。
提案手法
- 多様なソースから複数の応答をサンプルする(例:モデル、他のLLM、人間の専門家)。
- 現在のモデル下で各応答の対数確率を長さで正規化したスコア p_i(log P_pi(y_i|x,y_i<t))として計算する。
- 人間報酬 r_i が高いほど p_i を大きくするようなランキング損失 L_rank で最適化する(L_rank = sum_{r_i<r_j} max(0, p_i - p_j))。
- 最高報酬応答を用いて指示遵守の忠実度を保つように監督付きファインチューニング損失 L_ft を挿入する。
- 総損失は L = L_rank + L_ft。ランキングにマージン項はなく、別の価値モデルやKL項の必要もない。
- RRHFはSFTの拡張として、PPOの軽量な代替として見ることができ、複数のモデルや複雑なハイパーパラメータ調整を回避する。
実験結果
リサーチクエスチョン
- RQ1最小限のモデル数で対数確率のランキングを用いてRRHFがPPOと同等の整合を達成できるか?
- RQ2サンプリングされた応答の品質はRRHFの性能にどう影響するか?
- RQ3RRHFは自己、他のLLM、人間などの多様なソースを活用して人間が好むランキングを学べるか?
- RQ4RRHFはPPOと比較して実装とスケーリングがより簡単で、同様の結果を維持できるか?
主な発見
- 多様なサンプリング(DPまたはSP)を用いたRRHFはHHデータセットでPPOと同等の報酬レベルに達する。
- RRHFの性能はサンプル応答の品質とともにスケールし、サンプル集合の最大報酬に近づく。
- RRHFは1–2モデルのみで、PPOより大幅に少ないコーディングとハイパーパラメータ調整が必要。
- ランキング損失は不可欠で、これを除くと性能が低下する。
- 反復学習(RRHF IP-2)は、単一パス RRHF と比較してヒューマン評価の結果をさらに改善する。
- ChatGPT、InstructGPT、LLaMA、および Alpaca のサンプルを用いた RRHF で学習した Wombat モデルは、同等のリソース下で SFT ベースラインを上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。