[論文レビュー] Learning to summarize from human feedback
この論文は人間の比較から報酬モデルを訓練し、強化学習で要約ポリシーを微調整して、TL;DR で監督型ベースラインより高品質な要約を達成し、 domain-specific fine-tuning なしで CNN/DM へも良く転移する。
As language models become more powerful, training and evaluation are increasingly bottlenecked by the data and metrics used for a particular task. For example, summarization models are often trained to predict human reference summaries and evaluated using ROUGE, but both of these metrics are rough proxies for what we really care about -- summary quality. In this work, we show that it is possible to significantly improve summary quality by training a model to optimize for human preferences. We collect a large, high-quality dataset of human comparisons between summaries, train a model to predict the human-preferred summary, and use that model as a reward function to fine-tune a summarization policy using reinforcement learning. We apply our method to a version of the TL;DR dataset of Reddit posts and find that our models significantly outperform both human reference summaries and much larger models fine-tuned with supervised learning alone. Our models also transfer to CNN/DM news articles, producing summaries nearly as good as the human reference without any news-specific fine-tuning. We conduct extensive analyses to understand our human feedback dataset and fine-tuned models We establish that our reward model generalizes to new datasets, and that optimizing our reward model results in better summaries than optimizing ROUGE according to humans. We hope the evidence from our paper motivates machine learning researchers to pay closer attention to how their training loss affects the model behavior they actually want.
研究の動機と目的
- 言語モデルの要約を、単純な参照ベースの指標よりも人間の判断と整合させる動機づけ。
- 人間の比較を用いたバッチオフラインパイプラインを構築して報酬モデルを訓練する。
- PPO で人間の好み報酬を最大化するよう要約ポリシーを微調整する。
- 新しいドメインへの汎化を評価し、報酬モデルの挙動を分析する。
- 人間-in-the-loop 要約に関する研究を進めるため、データセットとコードを公開する。
提案手法
- Reddit TL;DR 投稿の候補要約間で大量の人間による比較を収集する。
- 特定の投稿に対して2つの要約の人間の好みを予測する報酬モデルを訓練する。
- PPO を用いて GPT-3 スタイルの Transformer ポリシーを微調整し、報酬モデル出力を最大化する。 supervised ベースラインを近づけるための KL ペナルティを含む。
- オフラインのバッチベースループを用いる:比較を収集、報酬モデルを訓練、ポリシーを最適化し、新しいポリシーからサンプルを取得してデータを追加する。
- ニュースドメインの微調整なしでCNN/DM への転移を評価し、ROUGE および参照要約と比較する。
- 64k以上の人間フィードバックデータセットを公開し、推論コードとモデルカードを提供する。
実験結果
リサーチクエスチョン
- RQ1人間の嗜好で訓練された報酬モデルは、参照要約やより大きい supervised モデルよりも人間に好まれる要約を生成できるか?
- RQ2報酬モデル主導のポリシーは、タスク固有の微調整なしでドメイン間(例:TL;DR から CNN/DailyMail へ)に汎化するか?
- RQ3報酬モデルの品質と規模が最終要約と人間判断との整合性にどう影響するか?
- RQ4ROUGE や他の自動指標を最適化することは人間の好みの信頼できる代理指標か?
- RQ5要約タスクにおける人間のフィードバックを用いた訓練の限界とリスクは何か?
主な発見
- 人間のフィードバックで訓練されたポリシーは、TL;DR で人間の嗜好テストにおいて強力な監督型ベースラインを上回る。
- 1.3B および 6.7B の人間フィードバックモデルは監督付きの counterparts を上回り、規模が大きいほど利得が大きい。
- 人間フィードバックモデルは、ニュースドメインの微調整なしで参照品質に近い転移をCNN/DM に達成する。
- 報酬モデルは ROUGE や対数確率指標より人間の好みをより良く予測し、それらに対して最適化することでより良い要約が得られる。
- データ量とモデルサイズの増加に伴い報酬モデルの性能は向上するが、収穫逓減の傾向がある。
- 64,832 件の TL;DR 比較データと関連評価データの公開データセットを公開する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。