Skip to main content
QUICK REVIEW

[论文解读] Painting Outside the Box: Image Outpainting with GANs

Mark Sabini, Gili Rusak|arXiv (Cornell University)|Aug 25, 2018
Generative Adversarial Networks and Image Synthesis参考文献 6被引用 27
一句话总结

本文提出一种基于生成对抗网络(GAN)的图像外补全方法,能够生成超越原始图像边界的逼真扩展区域。通过采用包含全局判别器与局部判别器的三阶段训练策略,该方法实现了128×128图像的稳定、高质量外补全,支持递归外补全,并在使用局部判别器时展现出更逼真的纹理与更高的保真度。

ABSTRACT

The challenging task of image outpainting (extrapolation) has received comparatively little attention in relation to its cousin, image inpainting (completion). Accordingly, we present a deep learning approach based on Iizuka et al. for adversarially training a network to hallucinate past image boundaries. We use a three-phase training schedule to stably train a DCGAN architecture on a subset of the Places365 dataset. In line with Iizuka et al., we also use local discriminators to enhance the quality of our output. Once trained, our model is able to outpaint $128 imes 128$ color images relatively realistically, thus allowing for recursive outpainting. Our results show that deep learning approaches to image outpainting are both feasible and promising.

研究动机与目标

  • 为解决图像外补全这一研究较少的任务,即在已知边界之外生成逼真的图像扩展区域。
  • 将图像修复任务中的对抗训练技术适配至更具挑战性的外补全设置中。
  • 通过三阶段训练策略与网络结构改进,稳定GAN在图像外补全任务中的训练过程。
  • 评估局部判别器与空洞卷积对生成质量与训练稳定性的影响力。
  • 实现递归外补全,以支持全景图生成与视频扩展等应用。

提出的方法

  • 模型采用DCGAN架构,生成器采用编码器-解码器结构,判别器使用步长卷积进行二分类。
  • 采用三阶段训练策略:第一阶段使用MSE损失预训练生成器;第二阶段使用对抗损失训练判别器;第三阶段联合优化生成器与判别器,采用联合损失函数。
  • 生成器损失结合MSE重建损失与对抗损失:$\mathcal{L}_{G} = \mathcal{L}_{\mathrm{MSE}} - \alpha \cdot \log D(G(I_p))$。
  • 引入局部判别器以聚焦于外补全区域,相比仅使用全局判别器,显著提升了纹理与色彩保真度。
  • 在生成器中使用空洞卷积以扩大感受野,从而有效实现图像边界之外的外推。
  • 预处理步骤包括:掩码中心区域,将外侧像素替换为未掩码区域的均值,并将掩码图像与掩码图拼接,形成4通道输入。

实验结果

研究问题

  • RQ1GAN能否被有效适配于图像外补全任务,该任务相较于图像修复研究较少?
  • RQ2与标准GAN训练相比,三阶段训练策略是否能显著提升外补全GAN的训练稳定性?
  • RQ3引入局部判别器对生成图像的视觉质量与真实感有何影响?
  • RQ4空洞卷积在多大程度上增强了生成器在图像边界外进行外推的能力?
  • RQ5能否在多轮迭代中实现稳定且逼真的递归外补全?

主要发现

  • 三阶段训练策略显著提升了训练稳定性:第一阶段MSE损失迅速下降,第三阶段因联合优化略有上升。
  • 使用局部判别器可减少竖向条带效应,提升色彩保真度,RMSE值低于仅使用全局判别器的情况。
  • 局部判别器使训练时间增加约60%,并引入更多点状伪影,表明质量与效率之间存在权衡。
  • 空洞卷积对成功实现外补全至关重要;若空洞程度不足,网络因感受野受限而无法重建图像。
  • 经过五轮迭代的递归外补全成功将图像宽度扩展为原始尺寸的3.5倍,尽管噪声逐步累积,但仍保持了整体纹理与真实感。
  • 该模型成功实现了128×128彩色图像的逼真外补全,证明了深度学习在图像外推任务中的可行性与潜力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。