[论文解读] Delete, Retrieve, Generate: A Simple Approach to Sentiment and Style Transfer
本文提出了一种简单的无监督文本属性迁移方法,通过定位并删除属性标记、检索目标属性示例以及生成流畅输出,在人类评估中优于对抗模型。
We consider the task of text attribute transfer: transforming a sentence to alter a specific attribute (e.g., sentiment) while preserving its attribute-independent content (e.g., changing "screen is just the right size" to "screen is too small"). Our training data includes only sentences labeled with their attribute (e.g., positive or negative), but not pairs of sentences that differ only in their attributes, so we must learn to disentangle attributes from attribute-independent content in an unsupervised way. Previous work using adversarial methods has struggled to produce high-quality outputs. In this paper, we propose simpler methods motivated by the observation that text attributes are often marked by distinctive phrases (e.g., "too small"). Our strongest method extracts content words by deleting phrases associated with the sentence's original attribute value, retrieves new phrases associated with the target attribute, and uses a neural model to fluently combine these into a final output. On human evaluation, our best method generates grammatical and appropriate responses on 22% more inputs than the best previous system, averaged over three attribute transfer datasets: altering sentiment of reviews on Yelp, altering sentiment of reviews on Amazon, and altering image captions to be more romantic or humorous.
研究动机与目标
- 在未对齐的数据和有限的属性标注句子下,为文本属性迁移提供动机。
- 提出一组更简单、可训练的方法,将内容与属性标记分离。
- 证明删除属性标记并用目标标记重新组合可产生流畅的输出。
- 表明检索增强生成相较于基线和先前对抗模型,在语法性与属性正确性方面有所提升。
提出的方法
- 通过比较带属性标记语料库中的相对频率,将属性标记识别为判别性 n-gram。
- Delete: 从原句中移除高显著性的属性标记以获得内容。
- Retrieve: 使用 TF-IDF 重叠或内容嵌入距离来获取具有相似内容的目标属性句子。
- Generate: 将内容与目标属性标记结合(TemplateBased),或通过神经模型生成(DeleteOnly, DeleteAndRetrieve),可选地以检索到的目标标记为条件。
- Train DeleteOnly,使其从内容和源属性重构句子,作为自编码器目标。
- Train DeleteAndRetrieve,使用去噪以防止拼接过于简单,并利用检索到的标记实现流畅生成。
实验结果
研究问题
- RQ1是否可以通过删除属性特定短语并通过检索与生成重新引入目标属性来实现文本属性迁移?
- RQ2在人工评估下,较简单的非对抗方法是否在情感/风格迁移任务上优于对抗训练模型?
- RQ3对检索到的目标标记进行条件化对迁移输出的语法性和内容保留有何影响?
主要发现
- 一个简单的基线,通过删除属性标记并检索目标属性内容,在人类评估中显著优于先前的对抗系统。
- 最强的神经变体(DeleteAndRetrieve)在三个数据集上实现最佳总体性能,且优于所有其他自动方法。
- 在 Yelp、Amazon 和 Captions 上,最佳方法在语法性、内容保留和目标属性匹配方面均高于以往方法。
- 人工评估显示最佳方法(DeleteAndRetrieve)在语法性、内容保留和属性匹配方面优于其他系统,并且可通过标记删除阈值进行明确权衡。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。