Skip to main content
QUICK REVIEW

[论文解读] Content preserving text generation with attribute controls

Lajanugen Logeswaran, Honglak Lee|arXiv (Cornell University)|Nov 3, 2018
Topic Modeling被引用 82
一句话总结

该论文提出一种模型,在通过插值重构损失和单一对抗判别器的情况下,保持内容同时控制多种文本属性,在情感和风格迁移任务上进行评估。

ABSTRACT

In this work, we address the problem of modifying textual attributes of sentences. Given an input sentence and a set of attribute labels, we attempt to generate sentences that are compatible with the conditioning information. To ensure that the model generates content compatible sentences, we introduce a reconstruction loss which interpolates between auto-encoding and back-translation loss components. We propose an adversarial loss to enforce generated samples to be attribute compatible and realistic. Through quantitative, qualitative and human evaluations we demonstrate that our model is capable of generating fluent sentences that better reflect the conditioning information compared to prior methods. We further demonstrate that the model is capable of simultaneously controlling multiple attributes.

研究动机与目标

  • 有必要修改文本属性而不丢失内容的动机。
  • 开发一个在属性标签条件下学习内容兼容的句子生成模型。
  • 引入一个插值自编码与回译的重构损失以保持内容。
  • 使用对抗判别器以确保真实感和属性兼容性。
  • 证明能够同时控制多种文本属性并在无并行数据的情况下进行评估。

提出的方法

  • 编码器-解码器架构,其中编码器从输入 x 提取内容表示 zx,解码器在 zx 与属性向量 l 的条件下生成 y。
  • 内容保持的重构损失:自编码损失 Lae、回译损失 Lbt,以及通过 zxy 将潜在表示 zx 与 zy 融合的插值损失 Lint 以重构 x。
  • 带有投影判别器的对抗损失 Ladv,以加强真实感和属性兼容性。
  • 联合目标 Lint + λLadv,训练细节包括伯努利插值的潜在混合以及硬采样生成。
  • 关于软采样与硬采样的讨论,以及选择使用硬采样序列以提升可靠性。
  • 通过单一判别器建模句子与属性向量的联合分布,实现对多属性的可扩展性。

实验结果

研究问题

  • RQ1在将句子转换为反映指定属性时,内容是否能够被保留?
  • RQ2单一判别器是否能够在多属性间同时实现真实感和属性兼容性?
  • RQ3插值重构是否有助于避免平凡复制并提升内容保留?
  • RQ4在没有并行数据的情况下,同时控制多种属性是否是可行的?
  • RQ5所提出的方法在客观指标和人工评估上与先前的风格转换方法相比如何?

主要发现

  • 所提出的模型在 Yelp 上的属性准确性达到高值 90.50% ,在 IMDB 上达到 94.46% 。
  • 在 Yelp 上,所提出模型的内容保留(BLEU-1)分数为 53.0,在 IMDB 上为 40.3。
  • 所提出模型的流畅性(困惑度)分数为 7.5(Yelp)和 2.2(IMDB),显示出具有竞争力的流畅性。
  • 主观人工评估偏好所提出的模型优于 Ctrl-gen 和 Cross-align,在属性兼容性和内容保留方面更具优势。
  • 在单语翻译任务(古英语到现代英语)的半监督设定中,该模型相对于有监督基线表现出优势。
  • 该模型在情绪、时态、语态和否定等多属性的同时控制方面表现出高准确性(如生成样本的情绪 98%、时态 98%、语态 90%、否定 97%)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。