Skip to main content
QUICK REVIEW

[論文レビュー] Fine-Tuning Language Models from Human Preferences

Daniel M. Ziegler, Nisan Stiennon|arXiv (Cornell University)|Sep 18, 2019
Topic Modeling参考文献 46被引用数 383
ひとこと要約

この論文は人間の好みに基づく報酬モデルを訓練し、KL制約付きのRLを用いて大規模言語モデルをスタイライズされたテキスト継続と抽象的要約のために微調整し、比較的少ないラベル付きデータで人間の判断に基づく強い性能を達成します。

ABSTRACT

Reward learning enables the application of reinforcement learning (RL) to tasks where reward is defined by human judgment, building a model of reward by asking humans questions. Most work on reward learning has used simulated environments, but complex information about values is often expressed in natural language, and we believe reward learning for language is a key to making RL practical and safe for real-world tasks. In this paper, we build on advances in generative pretraining of language models to apply reward learning to four natural language tasks: continuing text with positive sentiment or physically descriptive language, and summarization tasks on the TL;DR and CNN/Daily Mail datasets. For stylistic continuation we achieve good results with only 5,000 comparisons evaluated by humans. For summarization, models trained with 60,000 comparisons copy whole sentences from the input but skip irrelevant preamble; this leads to reasonable ROUGE scores and very good performance according to our human labelers, but may be exploiting the fact that labelers rely on simple heuristics.

研究の動機と目的

  • Language tasks for reward learning from human preferences.
  • Pretrained language models with RL to optimize rewards judged by humans.
  • Reward modelingのオンライン vs オフラインデータ収集を検討。
  • 人間の評価を用いてスタイリッシュな継続と要約の性能を評価。

提案手法

  • 事前訓練済み言語モデル(GPT-2 774M)と、4つの候補継続に対する人間の比較から訓練された報酬モデル r を開始点とする。
  • 人間の選択を用いたソフトマックスクロスエントロピー損失 (Eq. 1) で r を訓練する。
  • 改良報酬 R(x,y)=r(x,y)−β log(π(y|x)/ρ(y|x)) を用いて Proximal Policy Optimization (PPO) でポリシー π を微調整する。
  • 更新後のポリシー π と初期モデル ρ の間にKL制約を課し、ドリフトを防ぐ(β項)。
  • オンラインでのKL(π,ρ) を目標にβをオンラインで変えることを選択的に行う。
  • オンラインまたはオフラインのデータ収集モードで人間のラベルを収集し、オンラインでは定期的に、オフラインでは1回のみ r を再訓練する。
  • スタイリスティックな継続タスクでは感情と記述性を最適化し、要約ではCNN/Daily MailとTL;DRデータセットを最適化する。

実験結果

リサーチクエスチョン

  • RQ1人間の好みから学習した報酬モデルは、大規模言語モデルのRL微調整を効果的に導くことができるのか?
  • RQ2オンライン対オフラインの報酬データ収集は性能と安定性にどのように影響するのか?
  • RQ3スタイリスティックな継続と要約を最適化する際の定性的・定量的な差異は何か?
  • RQ4KL制約はRL微調整中の忠実性、整合性、スタイル遵守にどの程度影響するのか?

主な発見

  • 少量の人間のフィードバック(約5k比較程度)でモデルを人間の好むスタイリッシュな継続に偏らせることができる。
  • 報酬モデルベースのRLは、ゼロショットまたは純粋な監視学習ベースのベースラインよりもスタイリスティックな継続の人間評価品質を向上させる。
  • 要約では、60kの人間比較で訓練されたモデルは「スマートなコピー機」のように振る舞い、しばしば文を丸ごとコピーし、ベースラインと比較して有利な人間判断を得るが、コピーのヒューリスティックを利用する可能性もある。
  • オンラインデータ収集は要約の性能を一般的に改善する一方で、スタイリスティックなタスクはオフラインデータでも類似の利得を示す。
  • 監督ありのベースラインからのRL微調整は強いROUGEスコアを生むことが多いが、人間の評価は実際の人間の好みを最適化したRL調整ポリシーを好む。
  • 60kのRL調整モデルは文を大きくコピーする(TL;DRで71%、CNN/DMで98%のコピー文)傾向を示し、好みベースのRLの下で強い抜粋性を示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。