Skip to main content
QUICK REVIEW

[論文レビュー] Reinforced Self-Training (ReST) for Language Modeling

Çaǧlar Gülçehre, Tom Le Paine|arXiv (Cornell University)|Aug 17, 2023
Topic Modeling被引用数 18
ひとこと要約

ReSTは、現在の方針からより大きなデータセットを生成することと、フィルタリングされた高報酬データ上で方針を反復的に微調整することを交互に行う、成長するバッチのオフラインRLHF手法で、言語モデルを人間の好みに合わせることを目的としている。機械翻訳タスクで実証されている。

ABSTRACT

Reinforcement learning from human feedback (RLHF) can improve the quality of large language model's (LLM) outputs by aligning them with human preferences. We propose a simple algorithm for aligning LLMs with human preferences inspired by growing batch reinforcement learning (RL), which we call Reinforced Self-Training (ReST). Given an initial LLM policy, ReST produces a dataset by generating samples from the policy, which are then used to improve the LLM policy using offline RL algorithms. ReST is more efficient than typical online RLHF methods because the training dataset is produced offline, which allows data reuse. While ReST is a general approach applicable to all generative learning settings, we focus on its application to machine translation. Our results show that ReST can substantially improve translation quality, as measured by automated metrics and human evaluation on machine translation benchmarks in a compute and sample-efficient manner.

研究の動機と目的

  • 効率的なオフライン学習フレームワークを用いて、LLMの出力を人間の好みに合わせることを促進する。
  • データ生成を方針改善から分離する、成長バッチ強化学習法を提案する。
  • 翻訳ベンチマークでReSTが教師あり学習およびオンラインRLHFのベースラインを上回ることを示す。
  • 異なるオフラインRL損失と複数のGrow/Improveステップが方針の品質に与える影響を評価する。
  • 人間の好みと報酬モデル代理指標を比較して、整合性のダイナミクスを理解する。

提案手法

  • 現在の方針からGrowサンプルを生成して拡張データセットを作成する成長バッチRLフレームワークを定義する。
  • 人間の好みに基づいて学習された報酬モデルを用い、Improveステップで拡張データをフィルタリングする。
  • フィルタリングされたデータ上で、オフラインRL目的(例:BCや他のオフライン損失)を用いて方針をファインチューニングする。
  • より高い報酬閾値を用いて反復し、連続するImproveステップのためにより品質の高いデータサブセットを取得する。
  • 推論時にBest-of-Nサンプリングを任意で用いて報酬信号を活用する。
  • 集団解釈を提供し、この切り離されたデータ生成がデータ再利用とデバッグを可能にする理由を論じる。

実験結果

リサーチクエスチョン

  • RQ1現在の方針から成長させたオフラインデータは、オンラインRLHFよりも人間の好みに対する言語モデルの整合性をより効率的に改善できるか。
  • RQ2機械翻訳におけるReSTフレームワーク内で、異なるオフラインRL損失はどのように機能するか。
  • RQ3複数のGrow/Improveステップが報酬モデルのスコアと人間の好みにどのような影響を与えるか。
  • RQ4Best-of-Nサンプリングは実際にReSTによる利得を高めるか。
  • RQ5報酬モデル代理指標は、データ分布全体にわたって人間の好みにどれだけ一般化するか。

主な発見

  • ReSTの変種は、複数のデータセットにわたる翻訳ベンチマークで教師あり学習のベースラインを上回る。
  • Online RL with PPO can underperform ReST in reward metrics and BLEU, suggesting reward hacking risks in online methods.
  • 複数のGrow/Improveステップは、検証セットで平均報酬スコアを一貫して向上させる(例:IWSLT 2014 De-En、WMT-2020 Zh-En、Web Domain En-Zh)。
  • IWSLT 2014 De-Enでは、単一のGrowに対してより多くのImproveステップを行うと報酬が高くなる;追加のGrowステップはさらに性能を改善できる(例:IWSLT 2014で最大5.3ポイント) 。
  • ReSTを用いたBest-of-N推論は報酬をさらに向上させ、適度なNがBCベースラインのより大きなNと同等になることがある。
  • BC損失は、ReSTにおけるオフライン損失の中で報酬モデルスコアと人間の整合性の点で最も強い利得をもたらすことが多い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。