[论文解读] Recursively Summarizing Books with Human Feedback
该论文将递归任务分解与从人类反馈中学习相结合,训练一个能够通过对较小部分进行逐步摘要并递归组合来对整本书进行摘要的模型。
A major challenge for scaling machine learning is training models to perform tasks that are very difficult or time-consuming for humans to evaluate. We present progress on this problem on the task of abstractive summarization of entire fiction novels. Our method combines learning from human feedback with recursive task decomposition: we use models trained on smaller parts of the task to assist humans in giving feedback on the broader task. We collect a large volume of demonstrations and comparisons from human labelers, and fine-tune GPT-3 using behavioral cloning and reward modeling to do summarization recursively. At inference time, the model first summarizes small sections of the book and then recursively summarizes these summaries to produce a summary of the entire book. Our human labelers are able to supervise and evaluate the models quickly, despite not having read the entire books themselves. Our resulting model generates sensible summaries of entire books, even matching the quality of human-written summaries in a few cases ($\sim5\%$ of books). We achieve state-of-the-art results on the recent BookSum dataset for book-length summarization. A zero-shot question-answering model using these summaries achieves state-of-the-art results on the challenging NarrativeQA benchmark for answering questions about books and movie scripts. We release datasets of samples from our model.
研究动机与目标
- 通过可扩展的监督来应对在长文本、难以评估的任务上训练模型的挑战。
- 开发一个递归摘要框架,将书籍文本分解为一个子任务树。
- 使用行为克隆和基于人类偏好的奖励建模来端到端训练单一模型。
- 证明递归能够处理任意长度的书籍,并在书籍长度数据集上与基线进行比较。
提出的方法
- 将长文本分解为一个摘要任务树,其中叶任务对段落进行摘要(高度为0)。
- 训练模型通过行为克隆执行叶子摘要,并通过较低层任务的输出来组合更高层次的摘要。
- 使用人类比较来训练奖励模型,并应用带 KL 正则化的强化学习来优化摘要。
- 通过组合摘要递归生成输入,基于同一深度的先前上下文来保持连贯性进行条件化。
- 实现一个训练课程,以减缓自我诱导的分布偏移,并在涉及更广泛树层之前关注早期树层。
- 在未在训练中看到的整本书、BookSum 和 NarrativeQA 上进行评估,并发布数据集。
实验结果
研究问题
- RQ1递归任务分解结合人类反馈是否能扩展到对书籍的长篇抽象摘要?
- RQ2在叶子任务和完整树摘要上,带有人类偏好的 RL 与 BC(行为克隆)相比如何?
- RQ3在该框架中,使用比较与示范相比带来哪些效率提升?
- RQ4从分层叶子生成的摘要是否能推广到整本书以及下游的问答基准?
主要发现
| 模型 | ROUGE-1 | ROUGE-2 | ROUGE-L | BERTScore |
|---|---|---|---|---|
| 175b full tree RL | 41.51 | 10.46 | 16.88 | 0.1821 |
| 175b first subtree RL | 43.19 | 10.63 | 17.10 | 0.1778 |
| 6b full tree RL | 36.79 | 7.22 | 14.84 | 0.1246 |
| Extractive Oracle | 46.62 | 9.17 | 18.31 | 0.082 |
| BertExt | 36.71 | 6.16 | 13.40 | 0.028 |
| T5 zero-shot | 35.43 | 5.62 | 12.02 | 0.011 |
| T5 fine-tuned | 39.46 | 7.69 | 13.77 | 0.060 |
- 在完整树上的 RL 训练模型在大模型规模下优于 BC 基线,尽管平均水平仍低于人类表现。
- 首个子树 RL 模型与或超过完整树 RL 的表现,显示出从早期树层的良好泛化。
- 在使用书籍派生摘要作为输入时,175B RL 模型在 BookSum 上达到目前的最先进结果,在 NarrativeQA 上也具有竞争力。
- 深度0 与 深度1 的摘要可以通过递归组合成连贯的整本书摘要,部分摘要接近人类质量(在顶层规模约为 5%)。
- 在数据收集所需的人力时间方面,基于比较的 RL 相比基于示范的 BC 更高效,尤其在较高数据预算时。
- 该方法使得以摘要作为输入进行零-shot 问答来回答关于书籍的问题成为可能,在 NarrativeQA 上取得了具竞争力的结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。