Skip to main content
QUICK REVIEW

[论文解读] Guided Image Generation with Conditional Invertible Neural Networks

Lynton Ardizzone, Carsten Lüth|arXiv (Cornell University)|Jul 4, 2019
Generative Adversarial Networks and Image Synthesis参考文献 42被引用 262
一句话总结

论文介绍了条件可逆神经网络(cINN),将可逆流与条件网络融合,使条件图像生成在多样性与高质量之间取得平衡,通过最大似然训练,在 MNIST 生成和 ImageNet 着色上有所演示,具备双向潜在空间操作。

ABSTRACT

In this work, we address the task of natural image generation guided by a conditioning input. We introduce a new architecture called conditional invertible neural network (cINN). The cINN combines the purely generative INN model with an unconstrained feed-forward network, which efficiently preprocesses the conditioning input into useful features. All parameters of the cINN are jointly optimized with a stable, maximum likelihood-based training procedure. By construction, the cINN does not experience mode collapse and generates diverse samples, in contrast to e.g. cGANs. At the same time our model produces sharp images since no reconstruction loss is required, in contrast to e.g. VAEs. We demonstrate these properties for the tasks of MNIST digit generation and image colorization. Furthermore, we take advantage of our bi-directional cINN architecture to explore and manipulate emergent properties of the latent space, such as changing the image style in an intuitive way.

研究动机与目标

  • 引入一个新架构:条件可逆神经网络(cINN),将 INN 与条件路径结合起来。
  • 提供一个稳定的最大似然基训练程序,用于同时优化 INN 与条件组件。
  • 在没有重建损失的情况下展示多样性与图像锐度,解决条件生成中的模式崩溃。
  • 探索 emergent 的潜在空间属性,并通过双向设计实现对图像属性的直观操控。

提出的方法

  • 通过将条件 c 追加到子网络来将仿射耦合块扩展到条件输入。
  • 使用一个 conditioning 网络 h 将 c 预处理为表示 c~,并将其接入似然训练目标。
  • 使用 pX(x; c, θ) = pZ(f(x; c, θ)) |det(df/dx)| 的最大似然训练,最小化损失 E[-log pX] + 正则化。
  • 通过从 pZ(z) 采样 z 并应用逆变换 f^{-1}(z; c, θML) 来生成新图像。
  • 由于潜在向量超出 pZ 时会产生较大似然损失(ML 训练),避免模式崩溃。
  • 结合数据增强(噪声)和稳定性技巧(s 的软夹紧、Xavier 初始化、软通道置换)。

实验结果

研究问题

  • RQ1一个条件可逆结构是否能够在给定任意输入条件的情况下生成多样且高质量的图像,而不会出现模式崩溃?
  • RQ2最大似然训练是否足以训练用于条件生成的 cINNs,避免重建损失并产生清晰的结果?
  • RQ3条件网络如何改进条件信号以及对复杂条件(如图像)的一般生成质量?
  • RQ4在对输如灰度或风格信息等条件时,带有双向设计的 cINN 能实现哪些潜在空间的操控?

主要发现

  • cINN 框架在不依赖重建损失的前提下,生成多样且清晰的条件图像。
  • 最大似然训练带来稳定的优化并在某些基于 GAN 的方法中降低模式崩溃的风险。
  • 该方法演示了条件化的 MNIST 数字生成和 ImageNet 的多样化着色,体现了有效的条件性和多样性。
  • 双向设计使对 emergent 的潜在空间属性进行操控成为可能,例如通过潜在变量改变图像风格。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。