Skip to main content
QUICK REVIEW

[论文解读] D-PAGE: Diverse Paraphrase Generation

Qiongkai Xu, Juyan Zhang|arXiv (Cornell University)|Aug 13, 2018
Topic Modeling被引用 29
一句话总结

D-PAGE 提出了一种新颖的方法,通过在解码器中引入可学习的模式嵌入,增强神经机器翻译模型以生成多样化的改写文本,使每个输入都能生成多个最优输出。该方法在真实世界数据集上使用一种新的评估指标——杰弗里散度(Jeffrey’s Divergence),实现了比基线模型至少一个数量级更高的多样性,同时保持了强大的语义保真度。

ABSTRACT

In this paper, we investigate the diversity aspect of paraphrase generation. Prior deep learning models employ either decoding methods or add random input noise for varying outputs. We propose a simple method Diverse Paraphrase Generation (D-PAGE), which extends neural machine translation (NMT) models to support the generation of diverse paraphrases with implicit rewriting patterns. Our experimental results on two real-world benchmark datasets demonstrate that our model generates at least one order of magnitude more diverse outputs than the baselines in terms of a new evaluation metric Jeffrey's Divergence. We have also conducted extensive experiments to understand various properties of our model with a focus on diversity.

研究动机与目标

  • 为解决尽管神经模型取得进展,但改写生成仍缺乏多样性的问题。
  • 使单一模型能够为同一输入生成多个语义忠实且语言多样的改写版本。
  • 开发一种通过参数化模式嵌入建模不同重写模式的方法,以支持多样化输出。
  • 引入一种新的评估指标——杰弗里散度(Jeffrey’s Divergence),用于衡量由不同重写模式引起的多样性。
  • 在合成数据集上验证模型学习可解释、原子化重写模式的能力。

提出的方法

  • 在神经机器翻译模型的解码器中引入可学习的模式嵌入,每种嵌入代表一种独特的重写模式。
  • 对于每个输入,模型通过动态选择合适的模式嵌入,利用不同的参数子集生成多样化输出。
  • 采用共享编码器和多个解码器的端到端训练方式,每个解码器与特定的模式嵌入相关联。
  • 使用损失函数,鼓励训练样本在各解码器之间分布均衡,以确保所有重写模式均被学习。
  • 引入一种新的评估指标——杰弗里散度(Jeffrey’s Divergence),用于基于输出分布差异量化多样性。
  • 构建具有预定义原子化重写模式(如替换、缩放等)的合成数据集,以测试模型对重写模式的学习能力。

实验结果

研究问题

  • RQ1神经模型能否在不损害语义保真度的前提下,生成多个多样化且语义忠实的改写?
  • RQ2所提出的模式嵌入机制在捕捉和生成不同重写模式方面有多高效?
  • RQ3该模型在生成多样化输出方面是否优于现有方法,尤其是在使用新多样性指标时?
  • RQ4模型能否在合成数据中学习并重现预定义的、可解释的重写模式?
  • RQ5随着模式嵌入数量(即解码器数量)的增加,模型性能如何变化?

主要发现

  • 在两个真实世界数据集上,D-PAGE 使用杰弗里散度测量的多样性至少比基线高出一个数量级。
  • 模型保持了具有竞争力的语义保真度,SARI 分数在 PPDB 和 Paralex 数据集上显示,D-PAGE-2 和 D-PAGE-4 在某些情况下优于 Beam-8。
  • 在合成数据集上,D-PAGE 能够成功学习并应用预定义的重写模式,如替换和缩放,而 Noise-K 和 VAE-K 无法泛化或学习多种模式。
  • 各解码器之间的样本训练分布收敛至均衡比例,表明多种重写模式被有效学习。
  • D-PAGE-8 在 PPDB 上训练时间低于 1.5 天,在 Paralex 上低于 4.1 天,且训练时间随解码器数量线性增长。
  • 模型展现出良好的可定制性,不同模式嵌入可针对教育、新闻等特定应用场景定制输出。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。