[论文解读] Noise Estimation for Generative Diffusion Models
本论文提出一个神经噪声估计模块 P_theta,在扩散过程中预测当前噪声水平,从而实现对噪声时间表的动态调整,以在扩散模型的少步生成中提升效果,适用于图像和语音任务。该方法避免对每个样本进行网格搜索,在更少的步骤下获得更好的质量。
Generative diffusion models have emerged as leading models in speech and image generation. However, in order to perform well with a small number of denoising steps, a costly tuning of the set of noise parameters is needed. In this work, we present a simple and versatile learning scheme that can step-by-step adjust those noise parameters, for any given number of steps, while the previous work needs to retune for each number separately. Furthermore, without modifying the weights of the diffusion model, we are able to significantly improve the synthesis results, for a small number of steps. Our approach comes at a negligible computation cost.
研究动机与目标
- 在不需要对每个样本进行大量调优的情况下,通过少量去噪步骤推动基于扩散的高效生成。
- 提出一个神经网络,用于估计当前噪声水平以为反向扩散过程进行条件化。
- 在推理过程中实现扩散噪声时间表的动态调整,以提升保真度。
- 证明适用于图像和语音生成,并给出定量改进。
提出的方法
- 引入 P_theta,一个从噪声样本 y_n 中估计当前噪声水平 alpha_hat 的神经网络。
- 用回归损失 L(alpha, alpha_hat) = ||log(1 - alpha) - log(1 - alpha_hat)||_2 对 P_theta 进行训练,以在 alpha ≈ 1 附近强调准确性。
- 使用 alpha_hat 来自适应剩余步中的噪声时间表参数 (beta_i),通过线性或斐波那契时间表公式。
- 利用预训练的 DDPM/DDIM 主干 epsilon_theta 进行去噪,并更新的推理方程中纳入估计的 alpha_hat。
- 在使用基于区间的 DDPM 条件时,通过将 alpha_hat 映射到一个区间 t 以实现对离散区间索引的条件化。
- 演示在选定步中更新噪声时间表的推理过程,并可选地基于 P_theta 重新调整。
实验结果
研究问题
- RQ1一个专用的噪声估计网络在去噪步数较少时是否能提升扩散样本质量?
- RQ2在推理中即时调整噪声时间表是否优于通过网格搜索获得的固定时间表?
- RQ3图像和语音扩散模型在推理过程中是否受益于自适应噪声时间表?
- RQ4在 alpha 趋近于 1 时,估计的噪声水平 alpha_hat 的准确性有多高?
主要发现
| Setting | MCD (↓) | PESQ (↑) | STOI (↑) |
|---|---|---|---|
| 1000 iterations | 2.65 | 3.29 | 0.959 |
| Grid Searched | 2.76 | 2.78 | 0.924 |
| Our method | 2.96 | 3.14 | 0.943 |
- 所提出的方法在语音和图像任务中,与网格搜索基线相比,在少步生成时提高了样本保真度。
- 在语音方面,该方法在少步下获得更高的 PESQ 和 STOI 分数,且与网格搜索相比在 MCD 上变化较小。
- 在图像生成中,每步都调整噪声时间表并使用学习得到的 alpha_hat,显著提高了有限步数下的 FID,相较于 DDIM 基线。
- alpha_hat 估计器在 alpha ≈ 1 附近达到高准确性,在语音数据上的均方误差接近 1e-4。
- 该方法在仅需 3 步去噪的情况下实现了相对较高的图像质量,并展示了相对于固定时间表的更快推理速度。
- 表 1 给出直接比较:网格搜索的 MCD 2.76、PESQ 2.78、STOI 0.924,而我们的方法为 2.96、3.14、0.943(在 1000 次迭代)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。