Skip to main content
QUICK REVIEW

[论文解读] Formality Style Transfer with Hybrid Textual Annotations

Ruochen Xu, Tao Ge|arXiv (Cornell University)|Mar 15, 2019
Topic Modeling参考文献 12被引用 31
一句话总结

本文提出了一种混合学习框架,用于正式性风格转换,通过双向序列到序列模型,联合利用有限的平行数据和大量已分类的非配对非正式数据,结合分类器引导损失和重建损失。该方法在正式性转换任务上达到最先进性能,并能有效泛化至无监督情感转换任务。

ABSTRACT

Formality style transformation is the task of modifying the formality of a given sentence without changing its content. Its challenge is the lack of large-scale sentence-aligned parallel data. In this paper, we propose an omnivorous model that takes parallel data and formality-classified data jointly to alleviate the data sparsity issue. We empirically demonstrate the effectiveness of our approach by achieving the state-of-art performance on a recently proposed benchmark dataset of formality transfer. Furthermore, our model can be readily adapted to other unsupervised text style transfer tasks like unsupervised sentiment transfer and achieve competitive results on three widely recognized benchmarks.

研究动机与目标

  • 通过结合有限的平行数据与大规模已分类的非正式非配对数据,解决正式性风格转换中的数据稀缺问题。
  • 通过使用单一编码器-解码器架构进行双向风格转换,提升模型的数据效率与性能。
  • 通过整合分类器引导损失与重建损失,增强训练稳定性和内容保留能力。
  • 实现向其他无监督文本风格转换任务(如情感转换)的泛化能力。
  • 在基准正式性转换数据集上实现最先进性能,同时保持强大的零样本迁移能力。

提出的方法

  • 使用共享编码器-解码器架构,训练双向序列到序列模型,实现从正式到非正式及从非正式到正式的双向风格转换。
  • 通过多种损失函数联合优化模型:翻译损失(MLE)、自重建损失和循环重建损失,以保留内容。
  • 通过独立的风格分类器提供反馈,利用分类器引导损失,引导模型生成目标正式程度的输出。
  • 通过自重建损失对分类器引导损失进行正则化,防止在风格适配过程中发生内容退化。
  • 使用平行句子对与未配对但已标注正式程度的句子组合,端到端训练该框架。
  • 通过移除翻译损失并依赖重建损失与分类器反馈,将该方法适配至无监督情感转换任务。

实验结果

研究问题

  • RQ1统一模型能否有效利用平行数据与非配对、已分类的正式性数据,实现双向正式性风格转换?
  • RQ2当平行数据稀缺时,引入已分类的正式性数据在多大程度上提升性能?
  • RQ3所提出的混合训练框架在多大程度上可泛化至其他无监督风格转换任务(如情感转换)?
  • RQ4将分类器引导损失与重建损失结合,是否能带来更好的内容保留与风格转换准确率?
  • RQ5各损失组件(翻译损失、自重建损失、循环重建损失、分类器引导损失)对整体模型性能的相对贡献如何?

主要发现

  • 所提出的模型在正式性转换基准数据集上达到最先进性能,在自动评估与人工评估指标上均优于先前方法。
  • 在Yelp情感转换数据集上,模型取得0.78的G-score,几何平均准确率与BLEU相比之前最佳方法提升5.2%。
  • 在Amazon情感转换数据集上,模型在所有基线方法中取得最高的GLEU分数,表明其在风格转换准确率与流畅性之间具有出色平衡。
  • 模型在ImageCaption数据集上也表现出有效泛化能力,在浪漫到幽默及幽默到浪漫的转换任务中均取得最高G-score。
  • 消融实验表明,分类器引导损失与重建损失的结合显著提升性能,其中自重建损失对内容保留尤为关键。
  • 即使在有限平行数据上训练,模型仍能保持高内容保真度,通过混合标注利用展现出强大的数据效率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。