[論文レビュー] Training Language Models with Language Feedback at Scale
ILFを導入する。自由形式の言語フィードバックから学習して言語モデルを洗練・微調整する反復的手法で、要約の規模拡大における改善を示し、いくつかの人間提供のベースラインを上回る。
Pretrained language models often generate outputs that are not in line with human preferences, such as harmful text or factually incorrect summaries. Recent work approaches the above issues by learning from a simple form of human feedback: comparisons between pairs of model-generated outputs. However, comparison feedback only conveys limited information about human preferences. In this paper, we introduce Imitation learning from Language Feedback (ILF), a new approach that utilizes more informative language feedback. ILF consists of three steps that are applied iteratively: first, conditioning the language model on the input, an initial LM output, and feedback to generate refinements. Second, selecting the refinement incorporating the most feedback. Third, finetuning the language model to maximize the likelihood of the chosen refinement given the input. We show theoretically that ILF can be viewed as Bayesian Inference, similar to Reinforcement Learning from human feedback. We evaluate ILF's effectiveness on a carefully-controlled toy task and a realistic summarization task. Our experiments demonstrate that large language models accurately incorporate feedback and that finetuning with ILF scales well with the dataset size, even outperforming finetuning on human summaries. Learning from both language and comparison feedback outperforms learning from each alone, achieving human-level summarization performance.
研究の動機と目的
- 比較ベースのフィードバックに代わるスケーラブルな方法として言語フィードバックからの学習を動機付け、形式化する。
- refine-and-finetune ステップを含む Imitation Learning from Language Feedback (ILF) アルゴリズムを開発する。
- ILFがベイズ推論に対応し、人間のフィードバックからの RL に関連することを示す。
- 新しいデータセットによる合成的な攻撃語除去タスクと実世界の要約タスクでILFを評価する。
- refinements, ranking methods, and hybrid feedback (language + binary) を調査し、人間レベルの性能に到達する。
提案手法
- 入力 c、初期出力 x0、フィードバック f を条件に refinements x1 を生成する3ステップのILFループ; スコアリングモデルを用いて最良の refinement を選択し、選択した refinement の尤度を最大化するように元のLMをファインチューニングする。
- refinement proposal qc(x1) は refine model piψ とフィードバック条件付き生成を介してフィードバックを統合する。
- 学習目的を重要度サンプリングに基づくKL最小化で近似し、文脈下でトップリファインメントの対数確率を効果的に最大化する目的(式4) に至る。
- beta → ∞ により最良の refine を自己正規化して選択するように、x1 が x0 に対してフィードバックを適切に組み込んでいるかを予測する指示付き微調整LMで報酬 R をモデル化する。
- ILFをベイズ推論として検証し、KLペナルティを伴う人間のフィードバックから RL に関連づけ、巨大モデルやデータセットへのスケーラビリティを実証する。
- synthetic offensive-word removal タスクと Reddit TL;DR 要約データセットで refinements 能力を実験的に検証し、ランキング手法(InstructRM Ensemble vs Embedding Similarity)とファインチューニングのベースラインを比較する。
実験結果
リサーチクエスチョン
- RQ1言語フィードバックはLMが人間の好みをよりよく取り入れた refinements を生成することを可能にするか?
- RQ2ILFはスケールで効果的に訓練でき、人間の要約やバイナリフィードバックのベースラインよりも優れているか?
- RQ3フィードバックを組み込む refinements を選ぶ最適な ranking method はどれか?
- RQ4言語フィードバックとバイナリフィードバックを組み合わせることが要約品質に与える影響は?
- RQ5refinements は初期要約と比べて最も重要なフィードバックポイントをより多く取り入れているか?
主な発見
- 合成的な攻撃語削除タスクでは、最大175B GPT-3モデルのみがフィードバックを意味ある形で取り入れることができ、 refinements 実験のモデル選択を導く。
- 要約では、 refinement を用いたファインチューニングは、人間の要約でのファインチューニングを含むベースラインより、サンプル数(100、1K、5K)すべてのケースで上回る。
- ハイブリッドILF + バイナリフィードバック方式(N 個中 Best-of-N、OPT-RM 報酬モデル)で人間レベルの要約性能(約50.8% 勝率)を5Kサンプルで達成。
- InstructRM Ensemble を ranking に用いると Refinement の質が向上し、フィードバックを取り入れる最良のデモを達成。
- 言語フィードバックは Refinements を大幅に改善し、Best-of-N 選択は人間の好みに対する整合性をさらに高める。
- Best-of-N sampling を使用すると Refinements は最も重要なフィードバックポイントをより頻繁に取り入れる傾向がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。