[论文解读] AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation
AR-Diffusion 引入一种自回归扩散过程,具有基于 token-位置的去噪步骤,在摘要、翻译和常识生成任务中实现更快的解码和更高的质量。
Diffusion models have gained significant attention in the realm of image generation due to their exceptional performance. Their success has been recently expanded to text generation via generating all tokens within a sequence concurrently. However, natural language exhibits a far more pronounced sequential dependency in comparison to images, and the majority of existing language models are trained with a left-to-right auto-regressive approach. To account for the inherent sequential characteristic of natural language, we introduce Auto-Regressive Diffusion (AR-Diffusion). AR-Diffusion ensures that the generation of tokens on the right depends on the generated ones on the left, a mechanism achieved through employing a dynamic number of denoising steps that vary based on token position. This results in tokens on the left undergoing fewer denoising steps than those on the right, thereby enabling them to generate earlier and subsequently influence the generation of tokens on the right. In a series of experiments on various text generation tasks, including text summarization, machine translation, and common sense generation, AR-Diffusion clearly demonstrated its superiority over existing diffusion language models and that it can be $100 imes\sim600 imes$ faster when achieving comparable results. Our code is available at https://github.com/microsoft/ProphetNet/tree/master/AR-diffusion.
研究动机与目标
- 促使扩散模型尊重自然语言固有的序列依赖性。
- 开发一种自回归扩散机制,使令牌生成速度随位置变化,以捕获从左到右的依赖关系。
- 引入一种多层次扩散策略(句子层级和令牌层级),具有动态移动速度以提升生成质量。
- 通过跳过机制减少解码步骤,以在提高或保持性能的同时加速推断。
提出的方法
- 采用一种多层次扩散策略,随机分配句子级时间步,并基于令牌位置计算令牌级时间步 f(n,t)。
- 将令牌移动速度 v(n,t_i,t_{i+1}) 定义为令牌级时间步之间的差值,以为左边令牌创造从左到右的更快去噪。
- 使用一个将条件扩散似然性与通过编码器-解码器 g_θ 的去噪一致性项相结合的目标进行训练。
- 使用跳过推理机制,选择句子级时间步的递减子序列,以显著减少推理步骤。
- 提供一个锚点 (n_e, t_e) 来引导令牌级时间步调度,以及一个仿射(点-斜率)函数来计算 f(n,t)。
- 将反向扩散分解到各个令牌,使每个位置在共享前向扩散结构的同时以其历史为条件。
实验结果
研究问题
- RQ1自回归扩散过程是否通过在扩散去噪阶段重新引入序列依赖性来提升文本生成质量?
- RQ2通过令牌级时间步强制从左到右的移动速度,是否相较于统一的扩散时间步能提升连贯性和事实性?
- RQ3跳过机制是否能在不牺牲性能的情况下显著加速基于扩散的解码?
- RQ4相对于现有的扩散模型和自回归/非自回归基线,AR-Diffusion 在摘要、翻译与常识生成任务上的表现如何?
主要发现
- AR-Diffusion 在各任务上的质量持续超越现有扩散语言模型和 AR 基线。
- 该模型实现显著更快的解码,在某些设置下声称可实现高达 100x 至 600x 的加速,同时保持可比的结果。
- 在文本摘要、机器翻译和常识生成方面,AR-Diffusion 显示出优于 GENIE 和 diffusion-LM 基线的结果。
- 跳过推理结合令牌级扩散提高了效率,即使极少的推理步骤也能保持较强的性能。
- 生成样本的多样性保持具有竞争力,在某些设置下 AR-Diffusion 的多样性高于自回归模型,且与 GENIE 的多样性相当。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。