[论文解读] BanditSum: Extractive Summarization as a Contextual Bandit
BanditSum 提出了一种用于抽取式摘要的上下文Bandit强化学习框架,通过直接优化ROUGE分数来绕过启发式抽取标签。它使用双向RNN计算句子亲和度,并采用无放回采样策略生成摘要,相较于序列化标签基线方法,在显著更少的训练更新次数下实现了最先进水平的ROUGE分数,尤其在关键句子出现在文档后半部分时表现更优。
In this work, we propose a novel method for training neural networks to perform single-document extractive summarization without heuristically-generated extractive labels. We call our approach BanditSum as it treats extractive summarization as a contextual bandit (CB) problem, where the model receives a document to summarize (the context), and chooses a sequence of sentences to include in the summary (the action). A policy gradient reinforcement learning algorithm is used to train the model to select sequences of sentences that maximize ROUGE score. We perform a series of experiments demonstrating that BanditSum is able to achieve ROUGE scores that are better than or comparable to the state-of-the-art for extractive summarization, and converges using significantly fewer update steps than competing approaches. In addition, we show empirically that BanditSum performs significantly better than competing approaches when good summary sentences appear late in the source document.
研究动机与目标
- 为解决抽取式摘要中序列二值标签方法的局限性,包括暴露偏差和对启发式抽取标签的依赖。
- 通过将摘要任务建模为上下文Bandit问题,消除对监督微调的依赖。
- 提升模型在高质量摘要句子出现较晚的文档上的性能,此类句子常被序列化模型低估。
- 相比具有大动作空间的完整强化学习方法,减少探索空间并加速训练。
- 实现端到端训练,使句子亲和度依赖于全局文档上下文,而非仅顺序关系。
提出的方法
- 将抽取式摘要建模为上下文Bandit问题,模型基于完整文档上下文输出[0,1]范围内的句子亲和度。
- 使用双向RNN编码器生成捕捉全局依赖关系的句子级亲和度分数。
- 应用无放回采样策略,根据亲和度选择摘要句子,避免对早期句子的顺序偏好。
- 采用策略梯度强化学习方法,优化模型以最大化生成摘要与参考摘要之间的ROUGE F1分数。
- 仅使用抽象式参考摘要进行端到端训练,无需任何抽取式标签,消除对启发式标签的依赖。
- 提出一种新颖的训练目标,直接通过ROUGE优化摘要质量,实现对最终评估指标的直接优化。
实验结果
研究问题
- RQ1上下文Bandit框架是否能在不使用抽取式标签的情况下,优于序列化二值标签方法?
- RQ2所提方法是否收敛更快且在ROUGE分数上优于现有强化学习基线?
- RQ3当关键摘要句子出现在文档后半部分时,该模型相较于偏好早期句子的模型表现如何?
- RQ4在动作选择中消除暴露偏差与序列依赖性,在多大程度上提升了摘要质量?
- RQ5该模型是否能在无需对启发式抽取标签进行监督微调的情况下,实现最先进性能?
主要发现
- BanditSum 在标准抽取式摘要基准上实现了最先进或相当的ROUGE分数,且未使用任何抽取式标签。
- 模型收敛速度显著快于对比方法,所需更新步数远少于基线,展现出更高的样本效率。
- 在关键句子出现较晚的数据集上,BanditSum 显著优于序列化强化学习模型(RNES与RNES3),表明其对后发重要信息的处理能力更强。
- 人工评估确认,BanditSum 生成的摘要冗余度更低,整体质量评分高于对比模型。
- 该方法在关键句子出现较早或较晚的场景下均表现稳健,当优质句子出现在开头时性能无下降。
- 消融实验表明,与基线相比的性能提升主要源于对后发摘要候选句的更好处理。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。