Skip to main content
QUICK REVIEW

[论文解读] Continuous diffusion for categorical data

Sander Dieleman, Laurent Sartran|arXiv (Cornell University)|Nov 28, 2022
Natural Language Processing Techniques被引用 21
一句话总结

本工作提出 CDCD,一种通过将标记嵌入欧几里得空间来为离散类别数据实现连续扩散建模的框架,采用分数插值和交叉熵训练,并应用时间扭曲以实现高效学习,在语言模型和翻译任务中得到验证。

ABSTRACT

Diffusion models have quickly become the go-to paradigm for generative modelling of perceptual signals (such as images and sound) through iterative refinement. Their success hinges on the fact that the underlying physical phenomena are continuous. For inherently discrete and categorical data such as language, various diffusion-inspired alternatives have been proposed. However, the continuous nature of diffusion models conveys many benefits, and in this work we endeavour to preserve it. We propose CDCD, a framework for modelling categorical data with diffusion models that are continuous both in time and input space. We demonstrate its efficacy on several language modelling tasks.

研究动机与目标

  • 在语言等离散类别数据中激发并实现连续扩散。
  • 提出一个通过在欧几里得空间中嵌入标记来保留时间和输入空间连续性的框架。
  • 开发含分数插值的训练以及端到端的嵌入扩散。
  • 引入时间扭曲以自适应噪声级采样,实现高效学习。

提出的方法

  • 将离散标记嵌入到连续欧几里得空间,并将嵌入与扩散模型协同训练。
  • 利用分数插值通过交叉熵从对数几率估计评分函数,从而实现端到端训练(Equation 6–8)。
  • 在嵌入上训练扩散模型,使用 L2 归一化防止嵌入坍缩,并可选对 x0 估计进行重新归一化。
  • 通过按照从训练损失推断的累积分布函数(Equation 9)非均匀地采样扩散时间步来应用时间扭曲。
  • 在基于 Transformer 的语言建模任务(如提示完成和填充)以及在用于机器翻译的编码器–解码器结构中实现 CDCD。

实验结果

研究问题

  • RQ1是否可以通过将标记嵌入到欧几里得空间来有效地将连续扩散应用于离散的类别数据?
  • RQ2将分数插值与交叉熵结合是否能够实现对语言数据的扩散模型的稳定端到端训练?
  • RQ3时间扭曲如何提升 CDCD 的采样质量与训练效率?
  • RQ4CDCD 是否能够在语言任务和翻译中支持条件生成(遮罩/前缀条件)而不牺牲扩散的优势?

主要发现

  • CDCD 通过使用分数插值和交叉熵损失实现对分类数据的扩散模型的端到端训练。
  • 带归一化的联合学习嵌入避免坍塌,并产生可训练的模型。
  • 时间扭曲使训练聚焦于信息量大的噪声水平,从而提高采样效率和质量。
  • 该框架支持面向提示完成和填充的掩码条件 Transformer 架构。
  • CDCD 通过合适的条件设置可用于通过编码器–解码器 Transformer 的机器翻译。
  • 在 CDCD 下的扩散式语言模型可以无需注意力掩蔽即可工作,与自回归模型不同,提供架构灵活性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。