Skip to main content
QUICK REVIEW

[论文解读] Step-unrolled Denoising Autoencoders for Text Generation

Nikolay Savinov, Jun‐Young Chung|arXiv (Cornell University)|Dec 13, 2021
Topic Modeling被引用 30
一句话总结

SUNDAE 是一个非自回归文本生成模型,在马尔可夫链上展开去噪过程,在 WMT’14 EN→DE 上实现了最先进的非自回归结果,并在无条件文本生成方面表现稳健,与自回归解码相比有显著的加速。

ABSTRACT

In this paper we propose a new generative model of text, Step-unrolled Denoising Autoencoder (SUNDAE), that does not rely on autoregressive models. Similarly to denoising diffusion techniques, SUNDAE is repeatedly applied on a sequence of tokens, starting from random inputs and improving them each time until convergence. We present a simple new improvement operator that converges in fewer iterations than diffusion methods, while qualitatively producing better samples on natural language datasets. SUNDAE achieves state-of-the-art results (among non-autoregressive methods) on the WMT'14 English-to-German translation task and good qualitative results on unconditional language modeling on the Colossal Cleaned Common Crawl dataset and a dataset of Python code from GitHub. The non-autoregressive nature of SUNDAE opens up possibilities beyond left-to-right prompted generation, by filling in arbitrary blank patterns in a template.

研究动机与目标

  • 推动非自回归文本生成,以实现更快的采样和更灵活的条件控制。
  • 提出 SUNDAE,在训练期间展开去噪过程,以使模型为生成时的输入做好准备。
  • 在 WMT’14 EN→DE 上展示无自回归蒸馏自 AR 模型的最先进非自回归结果。
  • 展示无条件语言建模以及代码/文本修复任务的定性与定量结果。
  • 提供消融研究,显示训练期展开与目标长度预测的重要性。

提出的方法

  • 将 SUNDAE 定义为具有按令牌分解转移的时间齐次马尔可夫链。
  • 通过展开的去噪进行训练:优化 L^(1) 和 L^(2) 损失(展开的去噪)以逼近 p_t 并鼓励从被污染输入中学习。
  • 使用一个损坏过程,随机替换一定比例的令牌为词汇表中的随机令牌,以在多步进行去噪的模拟。
  • 在采样时,从随机输入展开链进行生成,采用加速收敛的策略(低温采样、argmax-unrolled 解码、更新更少的令牌)。
  • 可选地包含目标长度预测以在机器翻译任务中引导解码。
  • 将 SUNDAE 与 AR 基线及其他非 AR 方法进行比较,并进行消融研究以展示展开去噪和长度预测的必要性。

实验结果

研究问题

  • RQ1在不依赖自回归教师蒸馏的情况下,使用展开去噪训练的非自回归模型是否能够达到具有竞争力的翻译质量?
  • RQ2展开去噪如何影响条件与无条件文本生成任务的样本质量与连贯性?
  • RQ3训练期展开和目标长度预测对非自回译 MT 性能有什么影响?
  • RQ4采样策略(温度、argmax-unrolled、令牌更新计划)如何影响生成的速度和质量?

主要发现

  • SUNDAE 在 WMT’14 English→German 翻译任务上,在非自回归方法中实现了最先进的结果,且无需 AR 蒸馏。
  • 在 EN→DE 上,SUNDAE 在报道的实验中达到约 26.25 的 BLEU(原始,非自回)和 30.80 在 DE→EN(原始,非自回)。
  • SUNDAE 在 EN→FR 上表现具有竞争力,在 T=10 时达到 37.53 BLEU(非自回),相较于 AR 基线,表明在没有蒸馏的情况下也有强劲表现。
  • 训练期间展开对实际性能至关重要,L^(1:2) 相对于仅 L^(1) 提供了很大提升;额外的展开损失收益递减。
  • 展开去噪使非自回归生成变得高效,相对于 AR 解码可获得显著的加速(例如在较少步数时最高可达 4.7x,步数增加后降速)。
  • SUNDAE 在 C4 和 Python 代码数据集上展示了稳健的无条件生成与修补能力,定性结果显示长程文本生成连贯,模板填充灵活。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。