QUICK REVIEW

[论文解读] Diffusion-LM Improves Controllable Text Generation

Xiang Lisa Li, John Thickstun|arXiv (Cornell University)|May 27, 2022

Topic Modeling被引用 237

一句话总结

Diffusion-LM 引入了一个基于扩散的、非自回归的连续语言模型，用于可控文本生成，能够在潜在变量上实现基于梯度的控制，以在保持流畅性的同时满足复杂约束。

ABSTRACT

Controlling the behavior of language models (LMs) without re-training is a major open problem in natural language generation. While recent works have demonstrated successes on controlling simple sentence attributes (e.g., sentiment), there has been little progress on complex, fine-grained controls (e.g., syntactic structure). To address this challenge, we develop a new non-autoregressive language model based on continuous diffusions that we call Diffusion-LM. Building upon the recent successes of diffusion models in continuous domains, Diffusion-LM iteratively denoises a sequence of Gaussian vectors into word vectors, yielding a sequence of intermediate latent variables. The continuous, hierarchical nature of these intermediate variables enables a simple gradient-based algorithm to perform complex, controllable generation tasks. We demonstrate successful control of Diffusion-LM for six challenging fine-grained control tasks, significantly outperforming prior work.

研究动机与目标

在不重新训练大型语言模型的情况下，激发对可控生成的需求。
开发一个用于文本的连续扩散模型（Diffusion-LM），通过嵌入与取整处理离散文本。
利用对扩散潜变量的分类器引导实现对生成的梯度控制。
在更细粒度的结构与语义控制方面展示可控生成。
展示分类器引导控制与无分类器的填充，在对比 baselines 时具竞争力或更优的结果。

提出的方法

通过将单词嵌入到连续空间并端到端学习嵌入，将扩散模型扩展到文本。
引入一个取整机制，将连续潜向量映射回离散词汇，以及一个夹紧（clamping）技术以降低取整误差。
用包含嵌入和可学习取整组件的端到端目标训练扩散模型。
通过对连续潜在向量的梯度更新进行控制，使用分类器项和流畅性正则化，平衡 p(x_{t-1}|x_t) 与 p(c|x_{t-1})。
对扩散步骤进行降采样，并在每个步骤应用多次梯度步，以提高效率与控制质量。
可选地应用最小贝叶斯风险解码，以在填充任务中在无分类器的情况下选择高质量样本。

实验结果

研究问题

RQ1一个连续扩散框架是否能够通过嵌入与取整有效地适应离散文本？
RQ2在扩散潜变量上实现基于梯度的控制，是否能比自回归的即插即用方法更好地实现复杂控制（句法、语义、长度）？
RQ3Diffusion-LM 在分类器引导控制任务上相比基线如 PPLM、FUDGE 与微调模型表现如何？
RQ4是否有可能组合多种控制并在无分类器的情况下进行填充？

主要发现

任务	控制 ↑	lm ↓
语义内容	81.2	2.55
词性	90.0	5.16
语法树	86.0	3.71
语法跨度	93.8	2.53
长度	99.9	2.16

Diffusion-LM 在六个细粒度任务上实现了高水平的控制成功率和流畅文本，优于先前的即插即用方法。
在五个分类器引导任务上，Diffusion-LM 显示出比 PPLM 与 FUDGE 基线更高的控制分数和更低的 perplexity（lm），在某些情况下超越用于句法解析树和跨段落的微调奥兰（oracle）。
Diffusion-LM 由于其非自回归、从粗到细的潜在结构，相较自回归方法更有效地实现如解析树和句法跨段落等复杂控制。
对于填充任务（无分类器控制），Diffusion-LM 显著优于先前的即插即用方法，并且与为该任务专门训练的自回归模型媲美甚至超越。
使用基于扩散的控制进行采样的速度虽慢于自回归解码，但仍快于一些强基线（比 FUDGE 慢 1.5x；比 PPLM 快约 60 倍）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。