[论文解读] Paraphrase Generation with Deep Reinforcement Learning
本文提出了一种基于生成器-评估器架构的深度强化学习框架,用于改写生成:生成器通过序列到序列学习生成改写文本,而评估器则通过监督学习或逆强化学习训练,提供语义相似度奖励以微调生成器。该方法在自动评估和人工评估中均显著优于当前最先进模型的改写质量。
Automatic generation of paraphrases from a given sentence is an important yet challenging task in natural language processing (NLP), and plays a key role in a number of applications such as question answering, search, and dialogue. In this paper, we present a deep reinforcement learning approach to paraphrase generation. Specifically, we propose a new framework for the task, which consists of a extit{generator} and an extit{evaluator}, both of which are learned from data. The generator, built as a sequence-to-sequence learning model, can produce paraphrases given a sentence. The evaluator, constructed as a deep matching model, can judge whether two sentences are paraphrases of each other. The generator is first trained by deep learning and then further fine-tuned by reinforcement learning in which the reward is given by the evaluator. For the learning of the evaluator, we propose two methods based on supervised learning and inverse reinforcement learning respectively, depending on the type of available training data. Empirical study shows that the learned evaluator can guide the generator to produce more accurate paraphrases. Experimental results demonstrate the proposed models (the generators) outperform the state-of-the-art methods in paraphrase generation in both automatic evaluation and human evaluation.
研究动机与目标
- 解决使用神经序列到序列模型生成高质量、语义准确改写文本的挑战。
- 克服基于词法的评估指标(如 BLEU、ROUGE)在训练过程中难以捕捉语义相似度的局限性。
- 开发一个可训练的评估器,为强化学习中的改写生成提供准确的、基于语义的奖励信号。
- 在并行数据有限的情况下,利用并行和非并行数据有效训练生成器。
- 证明该框架在改写生成之外的其他序列到序列任务中的泛化能力。
提出的方法
- 生成器是一个带有注意力机制和复制机制的序列到序列模型,使用并行改写对在交叉熵损失下进行预训练。
- 评估器是一个基于可分解注意力机制的深度匹配模型,当存在正样本对和负样本对时,通过监督学习进行训练。
- 当仅有正样本时,评估器基于最大间隔原则,使用基于生成器输出的逆强化学习(IRL)进行训练,以从生成器输出中推断奖励函数。
- 生成器通过策略梯度强化学习进一步微调,使用评估器的输出作为密集的、基于语义的奖励信号。
- 提出了一种新颖的逆强化学习算法,以处理专家示范(即生成器输出),并学习一个反映语义相似度的奖励函数。
- 该框架支持使用非并行数据进行训练,从而提升数据效率和模型鲁棒性。
实验结果
研究问题
- RQ1基于深度匹配模型的可训练评估器是否能在改写生成中提供比词法指标更准确、更具语义基础的奖励?
- RQ2当仅有正向改写对可用时,使用生成器输出作为示范的逆强化学习在评估器训练中如何提升性能?
- RQ3与标准序列到序列训练相比,通过强化学习使用学习到的评估器对生成器进行微调,在多大程度上提升了改写质量?
- RQ4所提出的生成器-评估器框架是否能泛化到改写生成之外的其他序列到序列任务?
- RQ5在语义准确性和流畅性方面,该模型在人工评估中与最先进方法相比表现如何?
主要发现
- 所提方法在 Quora 问题对和 Twitter URL 改写数据集上的自动评估(如 ROUGE、BLEU)和人工评估中,均优于现有的基于神经网络的方法。
- 通过逆强化学习训练的评估器即使在没有显式负样本的情况下,也能在区分改写对与非改写对方面表现出高精度。
- 使用评估器奖励信号进行强化学习微调,显著提升了生成改写文本的语义准确性。
- 该模型在两个基准数据集上均取得了最先进结果,证明了生成器-评估器框架的有效性。
- 即使并行训练数据有限,该框架依然有效,因为非并行数据可用于进一步提升生成器性能。
- 消融研究证实,评估器与强化学习的结合对于性能提升至关重要,其表现优于仅使用监督学习或仅使用强化学习方法的模型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。