[论文解读] RePaint: Inpainting using Denoising Diffusion Probabilistic Models
RePaint 使用一个无条件的 DDPM 作为先验,并在反向扩散过程中以已知图像区域为条件,对任意掩模执行自由形式修复,达到高质量且多样的结果,而无需针对掩模的特定训练。
Free-form inpainting is the task of adding new content to an image in the regions specified by an arbitrary binary mask. Most existing approaches train for a certain distribution of masks, which limits their generalization capabilities to unseen mask types. Furthermore, training with pixel-wise and perceptual losses often leads to simple textural extensions towards the missing areas instead of semantically meaningful generation. In this work, we propose RePaint: A Denoising Diffusion Probabilistic Model (DDPM) based inpainting approach that is applicable to even extreme masks. We employ a pretrained unconditional DDPM as the generative prior. To condition the generation process, we only alter the reverse diffusion iterations by sampling the unmasked regions using the given image information. Since this technique does not modify or condition the original DDPM network itself, the model produces high-quality and diverse output images for any inpainting form. We validate our method for both faces and general-purpose image inpainting using standard and extreme masks. RePaint outperforms state-of-the-art Autoregressive, and GAN approaches for at least five out of six mask distributions. Github Repository: git.io/RePaint
研究动机与目标
- 在不训练掩模条件生成器的情况下,处理具有任意形状掩模的自由形式图像修复。
- 利用一个预训练的无条件 DDPM 作为先验进行语义丰富、纹理丰富的修复。
- 引入重采样策略,在扩散过程中使已知区域与生成区域协调统一。
提出的方法
- 使用现成的无条件 DDPM 作为修复的生成先验。
- 在反向扩散过程中通过从已知区域采样来条件化生成,而不修改 DDPM 的权重。
- 引入重采样(RePaint)策略,在扩散时间上来回跳转,以实现条件内容与生成内容之间的和谐。
- 使用前向过程从已知区域采样 x_{t-1}^{known},并从 DDPM 采样 x_{t-1}^{unknown},再使用掩模进行组合。
- 以步长长度 (j) 逐步应用多次重采样步骤(r),以在不过度降低扩散速度的前提下提高语义连贯性。
实验结果
研究问题
- RQ1在不训练掩模条件模型的前提下,无条件 DDPM 能否作为跨任意掩模的通用修复先验?
- RQ2在反向扩散过程中使用重采样策略,是否能比标准 DDPM 采样提升修复区域的语义连贯性和真实感?
- RQ3RePaint 在不同掩模类型(细线、大片区域、极端掩模)的人脸与通用图像上表现如何?
- RQ4基于重采样的条件化与如扩散减速等替代策略之间的权衡有哪些?
主要发现
- RePaint 在极端掩模下实现高质量、多样化的修复结果,在若干掩模分布上超越了最先进的自回归和 GAN 方法。
- 与普通的 DDPM 条件化相比,重采样策略显著改善了已知区域与生成区域之间的语义和谐性。
- 在 CelebA-HQ 和 ImageNet 的评估显示,在多种掩模设置下,定性和感知结果更好,LPIPS 与用户研究投票均更有利。
- 类别条件化实验表明,预训练的 ImageNet DDPM 能生成具有语义意义的类别引导修复。
- 消融研究表明跳跃长度和重采样步骤数(r)对图像质量有积极影响,且较大的跳跃长度(j)能带来更好的结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。