QUICK REVIEW

[论文解读] Glow: Generative Flow with Invertible 1x1 Convolutions

Diederik P. Kingma, Prafulla Dhariwal|arXiv (Cornell University)|Jul 9, 2018

Generative Adversarial Networks and Image Synthesis参考文献 24被引用 179

一句话总结

Glow 在基于流的生成模型中引入了可逆的 1×1卷积，带来更好的对数似然度，并实现逼真的高分辨率图像合成和潜在空间操作。

ABSTRACT

Flow-based generative models (Dinh et al., 2014) are conceptually attractive due to tractability of the exact log-likelihood, tractability of exact latent-variable inference, and parallelizability of both training and synthesis. In this paper we propose Glow, a simple type of generative flow using an invertible 1x1 convolution. Using our method we demonstrate a significant improvement in log-likelihood on standard benchmarks. Perhaps most strikingly, we demonstrate that a generative model optimized towards the plain log-likelihood objective is capable of efficient realistic-looking synthesis and manipulation of large images. The code for our model is available at https://github.com/openai/glow

研究动机与目标

推进高维图像的基于似然的生成建模。
引入可学习的可逆 1×1 卷积以替代固定的通道置换。
在多尺度流中结合 actnorm、可逆的 1×1 卷积和仿射耦合。
在 CIFAR-10、ImageNet、LSUN 和 CelebA-HQ 数据集上展示改进的对数似然。
展示高分辨率图像合成和有意义的潜在空间操作。

提出的方法

将生成流构建为一系列步骤：actnorm、可逆的 1×1 卷积和仿射耦合。
使用多尺度架构以逐步处理并因子化维度。
通过三角雅可比矩阵使用精确的雅可比行列式来计算对数似然。
用数据相关激活（actnorm）初始化以实现稳定训练。
用可学习的可逆 1×1 卷积替代固定的通道置换（如需提高效率，可选使用 LU 参数化）。
使用仿射耦合层，其神经网络输出零初始化以起始为单位映射。

实验结果

研究问题

RQ1具可逆 1×1 卷积的基于流的模型是否能在标准图像基准上提升对数似然，超越 RealNVP？
RQ2Glow 是否在保持可处理的精确似然的同时，实现高分辨率图像合成和有意义的潜在空间操作？
RQ3可学习的 1×1 卷积在性能和效率方面与固定排列或反向通道顺序相比如何？
RQ4所提议的多尺度 Glow 架构在大图像（如 256×256）上是否可扩展，且培训与采样时间可接受？
RQ5Glow 潜在空间带来哪些定性收益（采样质量、插值、属性操控等）？

主要发现

与 RealNVP 相比，Glow 在 CIFAR-10、ImageNet 32×32/64×64 和 LSUN 数据集上在 bits-per-dimension 上实现显著改进。
可逆的 1×1 卷积带来更快的收敛和略多的参数（约多 0.2%），但训练时间相当，显著提升对数似然。
在 256×256 的 CelebA-HQ 上，Glow 可以合成高质量的非自回归样本，并支持潜在空间插值和属性操控。
在合理温度下采样可产生多样、真实的图像，并使潜在流形更平滑。
温度和深度影响样本质量和多样性，在 256×256 CelebA-HQ 实验中，温度约为 0.7 时达到最佳点。
Glow 展示了高效的高分辨率合成（在 1080 Ti 上 256×256 采样约 130 ms），并在基准测试中具有竞争力的对数似然。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。