[論文レビュー] Pretraining Language Models with Human Preferences
本論文は、人間の好みに基づく目的で言語モデルを事前学習させること(特に条件付き訓練)が、望ましくないコンテンツを大幅に削減しつつ下流の性能を維持し、従来のMLE事前学習に続くフィードバック微調整よりも優れていることを示している。
Language models (LMs) are pretrained to imitate internet text, including content that would violate human preferences if generated by an LM: falsehoods, offensive comments, personally identifiable information, low-quality or buggy code, and more. Here, we explore alternative objectives for pretraining LMs in a way that also guides them to generate text aligned with human preferences. We benchmark five objectives for pretraining with human feedback across three tasks and study how they affect the trade-off between alignment and capabilities of pretrained LMs. We find a Pareto-optimal and simple approach among those we explored: conditional training, or learning distribution over tokens conditional on their human preference scores given by a reward model. Conditional training reduces the rate of undesirable content by up to an order of magnitude, both when generating without a prompt and with an adversarially-chosen prompt. Moreover, conditional training maintains the downstream task performance of standard LM pretraining, both before and after task-specific finetuning. Pretraining with human feedback results in much better preference satisfaction than standard LM pretraining followed by finetuning with feedback, i.e., learning and then unlearning undesirable behavior. Our results suggest that we should move beyond imitation learning when pretraining LMs and incorporate human preferences from the start of training.
研究の動機と目的
- Motivate the need to align language models with human preferences during pretraining, not just finetuning.
- Investigate five human-feedback pretraining objectives and compare them to standard MLE pretraining.
- Evaluate alignment and capabilities across toxicity, PII leakage, and PEP8-compliant code tasks.
- Identify Pareto-optimal objectives and provide practical guidance for PHF methods.
提案手法
- 各トレーニングセグメントに対してセグメントレベルの報酬関数Rを用いた事前学習を定式化する。
- 5つのPHF目的(条件付き訓練、データセットフィルタリング、unlikelihood loss、reward-weighted regression、advantage-weighted regression)を標準のMLEと比較する。
- 毒性、PII、PEP8タスクのために3.32Bトークンのデータセットを使った124MパラメータのGPT-2小型アーキテクチャを使用する。
- 整合性はミスアライメントスコア(ネガティブ報酬)で評価し、GPT-3および下流のベンチマークからのKL分散を通じてモデルの能力を評価する。
- タスク横断でred-teamingおよび敵対的プロンプトに対する堅牢性を評価する。

実験結果
リサーチクエスチョン
- RQ1人間のフィードバック(PHF)による事前学習は、整合性と能力の指標全体で、標準のMLE事前学習とフィードバック微調整を組み合わせた方法を上回ることができるか。
- RQ2有害性、PII、PEP8タスクの間で、どのPHF目的が最良の整合性と能力のトレードオフを提供するか。
- RQ3事前学習中に人間の嗜好を取り入れることは、LMの安全性と有用性のためのパレート最適解を生み出すか。
- RQ4PHF訓練済みのLMは、MLE訓練済みのベースラインと比較してred-teamingにどれだけ堅牢か。
- RQ5PHF訓練済みモデルは、zero-shotおよびGLUE様の下流タスクで性能を維持するか。
主な発見
- 条件付き訓練は三つのタスクすべてでパレート最適であり、毒性とPEP8の場合にはしばしば厳密にそうである。
- PHF手法は標準のMLEと比較して、望ましくない内容を最大で1桁のオーダー程度削減する。
- PHFは標準のMLEにフィードバック付き微調整を加えた方法と同等またはそれ以上の整合性をもたらし、ゼロショットおよびGLUEベンチマークに匹敵する可能性がある。
- MLE事前学習モデルからのフィードバックを用いた微調整は、通常、ゼロから訓練されたPHFより劣る。
- PHF目的はMLEに比べて対向的な頑健性を向上させるが、すべての脆弱性を排除するわけではない。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。