Skip to main content
QUICK REVIEW

[論文レビュー] The Wisdom of Hindsight Makes Language Models Better Instruction Followers

Tianjun Zhang, Fangchen Liu|arXiv (Cornell University)|Feb 10, 2023
Topic Modeling被引用数 9
ひとこと要約

HIRは指示適合を目標条件付きRL問題として再定義し、 hindsight 指示リラベリングを用いて報酬なしの監修付き2段階パイプラインで言語モデルを訓練。BigBenchタスクでPPOおよびFARLベースラインを上回る。

ABSTRACT

Reinforcement learning has seen wide success in finetuning large language models to better align with instructions via human feedback. The so-called algorithm, Reinforcement Learning with Human Feedback (RLHF) demonstrates impressive performance on the GPT series models. However, the underlying Reinforcement Learning (RL) algorithm is complex and requires an additional training pipeline for reward and value networks. In this paper, we consider an alternative approach: converting feedback to instruction by relabeling the original one and training the model for better alignment in a supervised manner. Such an algorithm doesn't require any additional parameters except for the original language model and maximally reuses the pretraining pipeline. To achieve this, we formulate instruction alignment problem for language models as a goal-reaching problem in decision making. We propose Hindsight Instruction Relabeling (HIR), a novel algorithm for aligning language models with instructions. The resulting two-stage algorithm shed light to a family of reward-free approaches that utilize the hindsightly relabeled instructions based on feedback. We evaluate the performance of HIR extensively on 12 challenging BigBench reasoning tasks and show that HIR outperforms the baseline algorithms and is comparable to or even surpasses supervised finetuning.

研究の動機と目的

  • 人間に近い指示と整合した言語モデルを、RL訓練の複雑さを追加せずにより良く整合させる動機づけ。
  • 指示追従を目標条件付き強化学習と結びつけ、データ効率の良い学習を可能にする。
  • 成功と失敗の出力の両方を活用するために指示をリラベリングし、整合性を最大化する。
  • 事前学習パイプラインを再利用する、シンプルでパラメータを抑えたファインチューニング手法を開発する。

提案手法

  • 指示文プロンプトによって定義されたゴール空間として、目標到達RL問題として言語指示適合をモデル化する。
  • 二段階の hindsight 指示リラベリング(HIR)を導入:オンラインデータ収集とその後のオフラインリラベリングと監督学習。
  • リラベリングを用いてモデルの出力に整合する新しい指示プロンプトを生成し、失敗からも学習できるようにする。
  • オフラインリラベリングでは、脚本化されたフィードバック関数を適用して新しい指示ターゲットを作成し、標準のseq2seq損失で訓練する。
  • 異なる指示間で出力を区別する対照的な指示ラベリング損失を組み込み、探索を促進するエントロピー正則化を適用する。
  • 最終訓練目的関数は L_final = L_supervise + alpha * L_contrastive + beta * L_entropy。

実験結果

リサーチクエスチョン

  • RQ1 hindsight リラベリングは、報酬モデルを明示的に用いなくてもフィードバックを指示ベースの監督に変換できるか。
  • RQ2オンライン-オフラインの二段階訓練 regime は、PPOやFARLベースラインより指示整合を改善できるか。
  • RQ3ベースモデルのサイズ(baseおよびlarge FLAN-T5)およびタスクタイプを問わず、アプローチは堅牢か。
  • RQ4エントロピーと対照的な損失が性能とデータ効率に与える影響はどの程度か。

主な発見

  • HIRはFLAN-T5-largeを用いた場合、12件のBigBench推論タスクでPPOおよびFARLベースラインを上回る。
  • Tracking Shuffled Objects (5) および (7) のような難易度の高いタスクでも、HIRは最良ベースラインを大幅に上回る。
  • 小型のベースモデル(FLAN-T5-base)でも複数タスクで強い向上を示す。
  • アブレーション解析により、エントロピー正則化、ラベル平滑化、サブ出力サンプリングの各要素が性能向上に寄与することを示す。
  • モデルサイズを超えて、HIRは顕著な改善を達成し、ベースモデル容量に対する頑健性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。