[论文解读] Image Inpainting using Block-wise Procedural Training with Annealed Adversarial Counterpart
本文提出了一种新颖的逐块程序化训练(BPT)与对抗性损失衰减(ALA)框架,用于基于条件生成对抗网络(conditional GANs)的深度图像修复。通过逐步训练更深的网络并稳定对抗性训练,该方法在图像修复、图像融合与引导编辑任务中实现了最先进(SOTA)的性能,显著减少了伪影并提升了感知质量。
Recent advances in deep generative models have shown promising potential in image inpanting, which refers to the task of predicting missing pixel values of an incomplete image using the known context. However, existing methods can be slow or generate unsatisfying results with easily detectable flaws. In addition, there is often perceivable discontinuity near the holes and require further post-processing to blend the results. We present a new approach to address the difficulty of training a very deep generative model to synthesize high-quality photo-realistic inpainting. Our model uses conditional generative adversarial networks (conditional GANs) as the backbone, and we introduce a novel block-wise procedural training scheme to stabilize the training while we increase the network depth. We also propose a new strategy called adversarial loss annealing to reduce the artifacts. We further describe several losses specifically designed for inpainting and show their effectiveness. Extensive experiments and user-study show that our approach outperforms existing methods in several tasks such as inpainting, face completion and image harmonization. Finally, we show our framework can be easily used as a tool for interactive guided inpainting, demonstrating its practical value to solve common real-world challenges.
研究动机与目标
- 解决在训练非常深的生成模型以实现高质量图像修复时出现的不稳定性和收敛性差的问题。
- 减少生成图像中孔洞附近可见的伪影与感知不连续性。
- 提升图像融合与引导修复任务中的泛化能力与真实感。
- 开发一种训练方案,使网络可更深,同时不损害稳定性或质量。
提出的方法
- 提出逐块程序化训练(BPT),通过逐阶段逐步向生成器网络添加残差块,每阶段训练至收敛后再增加深度。
- 采用对抗性损失衰减(ALA),在训练过程中逐步降低对抗性损失的权重,以抑制噪声与伪影。
- 提出一种局部感知损失(PPL),通过与预训练网络的特征进行比较,提升结构与纹理的一致性,优于ℓ₂损失。
- 引入多尺度局部对抗损失(MSPAL),在多个尺度上强制生成逼真的纹理细节。
- 采用条件生成对抗网络框架,其中生成器接收掩码输入并输出完成的图像,判别器则被训练以区分真实与生成的图像块。
- 将框架扩展为联合训练图像修复与图像融合任务,采用共享编码器与任务特定头的统一网络结构。
实验结果
研究问题
- RQ1渐进式、逐块的训练方案是否能稳定训练非常深的条件生成对抗网络用于图像修复?
- RQ2对抗性损失衰减是否能减少伪影并提升高分辨率图像生成的感知质量?
- RQ3与ℓ₂损失和标准GAN损失相比,局部感知损失(PPL)与多尺度局部对抗损失(MSPAL)在图像修复质量上的表现如何?
- RQ4所提出的框架能否有效扩展至交互式引导修复与图像融合任务?
- RQ5该方法在定量指标与用户评测中相较于现有SOTA方法的性能提升程度如何?
主要发现
- 所提出的BPT与ALA训练方案使生成器的深度超过以往方法,实现了更高品质、更逼真的图像补全结果。
- PPL与MSPAL损失的结合显著提升了感知质量与清晰度,相较于ℓ₂损失与标准GAN损失,经定性与定量评估均得到验证。
- 用户评测显示,人类评估者更偏好本方法生成结果在真实感、一致性与无伪影方面的表现,优于[12]与[23]的结果。
- 该方法在标准图像修复基准测试中(包括人脸补全与大尺度图像融合)实现了最先进性能。
- 该框架成功支持仅需边界框输入的交互式引导修复,实现逼真的物体构图,无需精确分割。
- 联合训练图像修复与图像融合任务的性能优于[23],尤其在色彩一致性与视觉真实感方面表现更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。