[论文解读] Glow: Generative Flow with Invertible 1x1 Convolutions
Glow 在基于流的生成模型中引入了可逆的 1×1卷积,带来更好的对数似然度,并实现逼真的高分辨率图像合成和潜在空间操作。
Flow-based generative models (Dinh et al., 2014) are conceptually attractive due to tractability of the exact log-likelihood, tractability of exact latent-variable inference, and parallelizability of both training and synthesis. In this paper we propose Glow, a simple type of generative flow using an invertible 1x1 convolution. Using our method we demonstrate a significant improvement in log-likelihood on standard benchmarks. Perhaps most strikingly, we demonstrate that a generative model optimized towards the plain log-likelihood objective is capable of efficient realistic-looking synthesis and manipulation of large images. The code for our model is available at https://github.com/openai/glow
研究动机与目标
- 推进高维图像的基于似然的生成建模。
- 引入可学习的可逆 1×1 卷积以替代固定的通道置换。
- 在多尺度流中结合 actnorm、可逆的 1×1 卷积和仿射耦合。
- 在 CIFAR-10、ImageNet、LSUN 和 CelebA-HQ 数据集上展示改进的对数似然。
- 展示高分辨率图像合成和有意义的潜在空间操作。
提出的方法
- 将生成流构建为一系列步骤:actnorm、可逆的 1×1 卷积和仿射耦合。
- 使用多尺度架构以逐步处理并因子化维度。
- 通过三角雅可比矩阵使用精确的雅可比行列式来计算对数似然。
- 用数据相关激活(actnorm)初始化以实现稳定训练。
- 用可学习的可逆 1×1 卷积替代固定的通道置换(如需提高效率,可选使用 LU 参数化)。
- 使用仿射耦合层,其神经网络输出零初始化以起始为单位映射。
实验结果
研究问题
- RQ1具可逆 1×1 卷积的基于流的模型是否能在标准图像基准上提升对数似然,超越 RealNVP?
- RQ2Glow 是否在保持可处理的精确似然的同时,实现高分辨率图像合成和有意义的潜在空间操作?
- RQ3可学习的 1×1 卷积在性能和效率方面与固定排列或反向通道顺序相比如何?
- RQ4所提议的多尺度 Glow 架构在大图像(如 256×256)上是否可扩展,且培训与采样时间可接受?
- RQ5Glow 潜在空间带来哪些定性收益(采样质量、插值、属性操控等)?
主要发现
- 与 RealNVP 相比,Glow 在 CIFAR-10、ImageNet 32×32/64×64 和 LSUN 数据集上在 bits-per-dimension 上实现显著改进。
- 可逆的 1×1 卷积带来更快的收敛和略多的参数(约多 0.2%),但训练时间相当,显著提升对数似然。
- 在 256×256 的 CelebA-HQ 上,Glow 可以合成高质量的非自回归样本,并支持潜在空间插值和属性操控。
- 在合理温度下采样可产生多样、真实的图像,并使潜在流形更平滑。
- 温度和深度影响样本质量和多样性,在 256×256 CelebA-HQ 实验中,温度约为 0.7 时达到最佳点。
- Glow 展示了高效的高分辨率合成(在 1080 Ti 上 256×256 采样约 130 ms),并在基准测试中具有竞争力的对数似然。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。