[論文レビュー] Recursively Summarizing Books with Human Feedback
この論文は再帰的タスク分解と人間のフィードバックからの学習を組み合わせ、全書を要約することのできるモデルを、より小さな部分を反復的に要約し、それらを再帰的に結合して構成することで訓練する。
A major challenge for scaling machine learning is training models to perform tasks that are very difficult or time-consuming for humans to evaluate. We present progress on this problem on the task of abstractive summarization of entire fiction novels. Our method combines learning from human feedback with recursive task decomposition: we use models trained on smaller parts of the task to assist humans in giving feedback on the broader task. We collect a large volume of demonstrations and comparisons from human labelers, and fine-tune GPT-3 using behavioral cloning and reward modeling to do summarization recursively. At inference time, the model first summarizes small sections of the book and then recursively summarizes these summaries to produce a summary of the entire book. Our human labelers are able to supervise and evaluate the models quickly, despite not having read the entire books themselves. Our resulting model generates sensible summaries of entire books, even matching the quality of human-written summaries in a few cases ($\sim5\%$ of books). We achieve state-of-the-art results on the recent BookSum dataset for book-length summarization. A zero-shot question-answering model using these summaries achieves state-of-the-art results on the challenging NarrativeQA benchmark for answering questions about books and movie scripts. We release datasets of samples from our model.
研究の動機と目的
- スケーラブルな監視を介して長く難易度の高い評価が難しいタスク上でモデルを訓練する課題に対処する。
- 書籍テキストをサブタスクの木に分解する再帰的要約フレームワークを開発する。
- 人間の嗜好からの行動クローンと報酬モデリングを使用して、単一のモデルをエンドツーエンドで訓練する。
- 再帰が任意長の書籍を扱えることを示し、書籍長データセットのベースラインと比較する。
提案手法
- 長文を要約タスクの木に分解し、葉タスクが断片を要約する(高さ0)。
- 葉の要約を行うための行動クローンを用いたモデル訓練と、低レベルタスクの出力を用いて上位レベルの要約を構成する訓練。
- 人間による比較を用いて報酬モデルを訓練し、KL正則化付きのRLを適用して要約を最適化する。
- 要約を組み合わせて入力を再帰的に生成し、同じ深さの前の文脈を条件付けして一貫性を維持する。
- 自己誘発分布シフトを軽減し、広範な木レベルよりも初期の木レベルに焦点を当てる訓練カリキュラムを実装する。
- 訓練中に見られなかった全書、BookSum、NarrativeQAで評価し、データセットを公開する。
実験結果
リサーチクエスチョン
- RQ1再帰的タスク分解と人間のフィードバックを組み合わせて、長文の抽象的ではない要約(長編)書籍の要約へスケールできるか?
- RQ2葉タスクと全木の要約における人間の嗜好を用いたRLは BC とどう比較されるか?
- RQ3この設定で比較を用いることとデモンストレーションを用いることの効率向上はどれほどか?
- RQ4階層的葉から生成された要約は全書へ一般化し、下流のQAベンチマークにも適用できるか?
主な発見
| モデル | ROUGE-1 | ROUGE-2 | ROUGE-L | BERTScore |
|---|---|---|---|---|
| 175b full tree RL | 41.51 | 10.46 | 16.88 | 0.1821 |
| 175b first subtree RL | 43.19 | 10.63 | 17.10 | 0.1778 |
| 6b full tree RL | 36.79 | 7.22 | 14.84 | 0.1246 |
| Extractive Oracle | 46.62 | 9.17 | 18.31 | 0.082 |
| BertExt | 36.71 | 6.16 | 13.40 | 0.028 |
| T5 zero-shot | 35.43 | 5.62 | 12.02 | 0.011 |
| T5 fine-tuned | 39.46 | 7.69 | 13.77 | 0.060 |
- 全木でのRL訓練モデルは大規模モデルサイズでBCベースラインを上回るが、平均的には依然として人間の性能を下回る。
- 最初のサブツリーRLモデルは全木RL性能と同等かそれを上回る。初期の木レベルから良い一般化を示す。
- 175B RLモデルはBookSumで最先端の結果を達成し、書籍由来の要約を入力としてNarrativeQAで競争力のある結果を示す。
- 深さ0および深さ1の要約を再帰的に組み合わせて全書の一貫した要約を生成でき、いくつかの要約は人間品質に近づく(トップサイズで約5%)。
- 比較に対するRLはデモンストレーションよりデータ収集の人間時間の観点で効率的で、特にデータ予算が大きい場合に有利。
- 本に関する質問に要約を入力としてゼロショットQAで回答することを可能にし、NarrativeQAで競争力のある結果を達成。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。