QUICK REVIEW

[論文レビュー] Understanding the Effects of RLHF on LLM Generalisation and Diversity

Robert Kirk, Ishita Mediratta|arXiv (Cornell University)|Oct 10, 2023

Natural Language Processing Techniques被引用数 13

ひとこと要約

本論文は、監督付きファインチューニング（SFT）、報酬モデリング（RM）、および RLHF がOOD一般化と出力多様性に与える影響を分析し、RLHF が一般化を向上させる一方で多様性を低下させるトレードオフを明らかにしています。

ABSTRACT

Large language models (LLMs) fine-tuned with reinforcement learning from human feedback (RLHF) have been used in some of the most widely deployed AI models to date, such as OpenAI's ChatGPT or Anthropic's Claude. While there has been significant work developing these methods, our understanding of the benefits and downsides of each stage in RLHF is still limited. To fill this gap, we present an extensive analysis of how each stage of the process (i.e. supervised fine-tuning (SFT), reward modelling, and RLHF) affects two key properties: out-of-distribution (OOD) generalisation and output diversity. OOD generalisation is crucial given the wide range of real-world scenarios in which these models are being used, while output diversity refers to the model's ability to generate varied outputs and is important for a variety of use cases. We perform our analysis across two base models on both summarisation and instruction following tasks, the latter being highly relevant for current LLM use cases. We find that RLHF generalises better than SFT to new inputs, particularly as the distribution shift between train and test becomes larger. However, RLHF significantly reduces output diversity compared to SFT across a variety of measures, implying a tradeoff in current LLM fine-tuning methods between generalisation and diversity. Our results provide guidance on which fine-tuning method should be used depending on the application, and show that more research is needed to improve the tradeoff between generalisation and diversity.

研究の動機と目的

SFT、RM、RLHF が分布内パフォーマンス、分布外一般化、および出力の多様性に与える影響を評価する。
入力ごよび入力間の設定にわたって、複数の指標を用いて多様性を定量化する。
Best-of-N（BoN）や他の段階が RLHF と SFT の差を説明するかを判断する。
堅牢なOODテストセットを用いて、要約と指示遵守タスクの結果を評価する。

提案手法

SFT、報酬モデリング（RM）、および人間のフィードバックからの強化学習（RLHF）という3つの手法を用いて LLaMa 7B ベースモデルをファインチューニングする。
出力ペア間の人間の好みを予測するRMを訓練し、PPOとKLペナルティを用いてSFTに近い方策を保つようRMをRLHFに組み込む。
RMと最適化の効果を分離するための参照点としてBoNサンプリングを評価する。
要約と指示遵守タスクのIDおよびOOD性能（PvR）を測定するためにGPT-4をシミュレートされた人間評価者として使用する。
入力ごよび入力間設定で、異なるN-gram（EAD）、Sentence-BERTコサイン類似度、およびNLI多様性の指標で出力の多様性を測定する。

実験結果

リサーチクエスチョン

RQ1SFT、RM、RLHF はそれぞれ分布外入力への一般化にどのように寄与するか？
RQ2さまざまなタスクにおいて、RLHF はSFTと比較してモデル出力の多様性にどのように影響するか？
RQ3Best-of-N サンプリングは RM 主導の RLHF の利点を再現するか、異なるダイナミクスを示すか？
RQ4要約と指示遵守タスクを横断する RLHF における一般化と多様性のトレードオフは何か？

主な発見

RLHF は SFT より ID のパフォーマンスを改善し、特にOOD性能を向上させる。
RLHF は入力ごとの指標で出力の多様性を大幅に低下させ、入力間の多様性ではより弱いが依然低下を示す。
BoN はいくつかの設定で RLHF を上回ることがあるが、その利得は基盤モデルの一般化に依存する。BoN は推論時のコストが高い。
KL ペナルティは多様性と一般化のトレードオフを改善しない。KL を増加させるとパフォーマンスと入力ごとの多様性の両方が低下する傾向にある。
タスクを横断して、RLHF のOODにおける相対的優位性は、より難しい分布シフト（特に指示遵守で）でより顕著である。
RLHF 下で入力間モード崩壊の証拠があり、入力間の多様性が減少していることを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。