Skip to main content
QUICK REVIEW

[论文解读] Generative Visual Manipulation on the Natural Image Manifold

Jun-Yan Zhu, Philipp Krähenbühl|arXiv (Cornell University)|Sep 12, 2016
Advanced Vision and Imaging参考文献 42被引用 121
一句话总结

这篇论文使用GAN学习自然图像多样性空间,并将其作为约束,在真实照片上进行实时、逼真图像编辑并将编辑转移到真实照片。它支持形状/颜色编辑、生成变换,以及从涂鸦生成图像。

ABSTRACT

Realistic image manipulation is challenging because it requires modifying the image appearance in a user-controlled way, while preserving the realism of the result. Unless the user has considerable artistic skill, it is easy to "fall off" the manifold of natural images while editing. In this paper, we propose to learn the natural image manifold directly from data using a generative adversarial neural network. We then define a class of image editing operations, and constrain their output to lie on that learned manifold at all times. The model automatically adjusts the output keeping all edits as realistic as possible. All our manipulations are expressed in terms of constrained optimization and are applied in near-real time. We evaluate our algorithm on the task of realistic photo manipulation of shape and color. The presented method can further be used for changing one image to look like the other, as well as generating novel imagery from scratch based on user's scribbles.

研究动机与目标

  • 激发并实现用户控制的、落在自然图像多样性空间上的逼真图像编辑。
  • 利用GAN从数据中学习图像多样性空间,并将编辑约束在该空间内。
  • 提供实时的、基于梯度的编辑操作(颜色、形状、扭曲)并可靠地将编辑转移回原始照片。
  • 实现基于涂鸦生成新图像以及在学习到的空间内图像之间的形态变换。

提出的方法

  • 训练一个GAN以近似自然图像多样性空间 M~ = {G(z)},并使用欧氏潜在距离作为感知相似性的代理。
  • 通过优化或学习的编码器 P(x; θP) 找到最近的潜在向量 z,将真实图像投影到GAN多样性空间上。
  • 在潜在空间中通过求解受约束的优化(方程5)进行编辑,使其满足用户约束,同时保持接近 z0 且落在多样性空间上。
  • 使用密集运动+颜色流(方程6)将编辑转移到原始高分辨率图像,并结合引导上采样。
  • 提供一个交互式界面,具备刷子着色、草图绘制(HOG 特征)和扭曲约束(方程5)。
  • 支持三种应用:对现有照片的真实编辑、图像之间的生成性变换,以及基于涂鸦的交互式图像生成。

实验结果

研究问题

  • RQ1由GAN学习的自然图像多样性空间是否可以作为一种安全、可控的图像编辑约束?
  • RQ2如何将用户编辑表达为约束,同时确保输出保持在多样性空间上且接近原始图像?
  • RQ3将真实照片投影到GAN多样性空间并将编辑反向传播回原始图像的效果如何?
  • RQ4是否可以利用密集对应技术实现将从生成图像获得的编辑高保真地转移到真实照片?
  • RQ5不同编辑约束(着色、草图、扭曲)在产生真实感结果方面的表现如何?

主要发现

  • 混合投影(学习的编码器+优化)在重建方面优于仅优化或仅编码器。
  • 按数据集的重建误差显示,混合方法始终优于基于优化和基于网络的投影(Shoes/Church Outdoor/Outdoor Natural/Handbags/Shirts)。
  • 编辑更新在50–100 ms内完成,能够提供近实时的交互反馈;最终高分辨率的编辑转移需要5–10秒。
  • 将用户编辑约束在GAN多样性空间内的结果比普通GAN输出更具逼真感,且形状+颜色编辑在用户研究中获得更高的感知真实度。
  • 该方法实现三种能力:对真实图像的逼真操控、图像之间的生成性变换,以及基于用户涂鸦的交互式图像生成。
  • 基于运动+颜色流的编辑转移在应用到原始图像时能降低伪影,并可通过引导滤波进行上采样以获得更高分辨率的结果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。