Skip to main content
QUICK REVIEW

[论文解读] Glow: Generative Flow with Invertible 1x1 Convolutions

Diederik P. Kingma, Prafulla Dhariwal|arXiv (Cornell University)|Jul 9, 2018
Generative Adversarial Networks and Image Synthesis参考文献 24被引用 179
一句话总结

Glow 在基于流的生成模型中引入了可逆的 1×1卷积,带来更好的对数似然度,并实现逼真的高分辨率图像合成和潜在空间操作。

ABSTRACT

Flow-based generative models (Dinh et al., 2014) are conceptually attractive due to tractability of the exact log-likelihood, tractability of exact latent-variable inference, and parallelizability of both training and synthesis. In this paper we propose Glow, a simple type of generative flow using an invertible 1x1 convolution. Using our method we demonstrate a significant improvement in log-likelihood on standard benchmarks. Perhaps most strikingly, we demonstrate that a generative model optimized towards the plain log-likelihood objective is capable of efficient realistic-looking synthesis and manipulation of large images. The code for our model is available at https://github.com/openai/glow

研究动机与目标

  • 推进高维图像的基于似然的生成建模。
  • 引入可学习的可逆 1×1 卷积以替代固定的通道置换。
  • 在多尺度流中结合 actnorm、可逆的 1×1 卷积和仿射耦合。
  • 在 CIFAR-10、ImageNet、LSUN 和 CelebA-HQ 数据集上展示改进的对数似然。
  • 展示高分辨率图像合成和有意义的潜在空间操作。

提出的方法

  • 将生成流构建为一系列步骤:actnorm、可逆的 1×1 卷积和仿射耦合。
  • 使用多尺度架构以逐步处理并因子化维度。
  • 通过三角雅可比矩阵使用精确的雅可比行列式来计算对数似然。
  • 用数据相关激活(actnorm)初始化以实现稳定训练。
  • 用可学习的可逆 1×1 卷积替代固定的通道置换(如需提高效率,可选使用 LU 参数化)。
  • 使用仿射耦合层,其神经网络输出零初始化以起始为单位映射。

实验结果

研究问题

  • RQ1具可逆 1×1 卷积的基于流的模型是否能在标准图像基准上提升对数似然,超越 RealNVP?
  • RQ2Glow 是否在保持可处理的精确似然的同时,实现高分辨率图像合成和有意义的潜在空间操作?
  • RQ3可学习的 1×1 卷积在性能和效率方面与固定排列或反向通道顺序相比如何?
  • RQ4所提议的多尺度 Glow 架构在大图像(如 256×256)上是否可扩展,且培训与采样时间可接受?
  • RQ5Glow 潜在空间带来哪些定性收益(采样质量、插值、属性操控等)?

主要发现

  • 与 RealNVP 相比,Glow 在 CIFAR-10、ImageNet 32×32/64×64 和 LSUN 数据集上在 bits-per-dimension 上实现显著改进。
  • 可逆的 1×1 卷积带来更快的收敛和略多的参数(约多 0.2%),但训练时间相当,显著提升对数似然。
  • 在 256×256 的 CelebA-HQ 上,Glow 可以合成高质量的非自回归样本,并支持潜在空间插值和属性操控。
  • 在合理温度下采样可产生多样、真实的图像,并使潜在流形更平滑。
  • 温度和深度影响样本质量和多样性,在 256×256 CelebA-HQ 实验中,温度约为 0.7 时达到最佳点。
  • Glow 展示了高效的高分辨率合成(在 1080 Ti 上 256×256 采样约 130 ms),并在基准测试中具有竞争力的对数似然。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。