[论文解读] PixelCNN++: Improving the PixelCNN with Discretized Logistic Mixture Likelihood and Other Modifications
PixelCNN++ 引入离散化的逻辑混合似然和额外的架构修改(整像素条件、带跳连的下采样、dropout),以提升 PixelCNN 在 CIFAR-10 上的性能,达到最先进的对数似然。
PixelCNNs are a recently proposed class of powerful generative models with tractable likelihood. Here we discuss our implementation of PixelCNNs which we make available at https://github.com/openai/pixel-cnn. Our implementation contains a number of modifications to the original model that both simplify its structure and improve its performance. 1) We use a discretized logistic mixture likelihood on the pixels, rather than a 256-way softmax, which we find to speed up training. 2) We condition on whole pixels, rather than R/G/B sub-pixels, simplifying the model structure. 3) We use downsampling to efficiently capture structure at multiple resolutions. 4) We introduce additional short-cut connections to further speed up optimization. 5) We regularize the model using dropout. Finally, we present state-of-the-art log likelihood results on CIFAR-10 to demonstrate the usefulness of these modifications.
研究动机与目标
- 推动对 PixelCNN 家族的改进,以获得更可处理的似然和更好的图像感知质量。
- 在简化模型结构的同时加速训练并改善收敛。
- 探索多分辨率处理和正则化技术以提升性能。
- 展示在 CIFAR-10 上的最先进对数似然结果,基于所提出的改动。
提出的方法
- 使用离散化的逻辑分布混合来建模像素似然,而不是 256 路 softmax。
- 对整像素(R,G,B 一起)进行条件建模,并线性建模通道之间对前一通道的依赖。
- 结合步幅为 2 的卷积进行下采样,以捕捉多分辨率结构。
- 添加远程跳跃连接,以恢复下采样/上采样丢失的信息。
- 应用 dropout 正则化以降低过拟合并提高生成质量。
实验结果
研究问题
- RQ1离散化的逻辑混合似然在训练速度和对数似然性能方面与 softmax 相比如何?
- RQ2对整像素与子像素条件建模对模型容量和样本质量有何影响?
- RQ3下采样和跳跃连接是否能为多分辨率建模提供与膨胀卷积相当的好处?
- RQ4dropout 对训练稳定性和生成图像质量有何影响?
- RQ5PixelCNN++ 及其变体在 CIFAR-10 上的最先进对数似然结果是什么?
主要发现
| 模型 | 每个子像素的比特数 |
|---|---|
| Deep Diffusion | 5.40 |
| NICE | 4.48 |
| DRAW | 4.13 |
| Deep GMMs | 4.00 |
| Conv DRAW | 3.58 |
| Real NVP | 3.49 |
| PixelCNN (van den Oord et al.) | 3.14 |
| VAE with IAF | 3.11 |
| Gated PixelCNN | 3.03 |
| PixelRNN | 3.00 |
| PixelCNN++ | 2.92 |
- PixelCNN++ 在 CIFAR-10 上达到 2.92 位每子像素,优于先前的 PixelCNN 变体。
- Class-conditioned PixelCNN++ 实现 2.94 位每子像素,并有定性的类别区分样本。
- Softmax-based ablation 在该设置下训练更慢且不如离散化的逻辑混合在效率上。
- 连续混合去量化给出一个 3.11 位/维的变分下界,劣于离散化似然。
- 移除短路连接会阻碍训练进展,凸显它们在下采样中的重要性。
- 不使用 dropout 会导致过拟合和感知图像质量较差,尽管训练似然很高。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。