[论文解读] Residual Flows for Invertible Generative Modeling
本论文引入 Residual Flows,一种无偏、内存高效的基于流的模型,使用带有俄罗斯轮盘估计的可逆残差网络,在密度估计方面具有竞争力并在生成/判别性能上表现出色。
Flow-based generative models parameterize probability distributions through an invertible transformation and can be trained by maximum likelihood. Invertible residual networks provide a flexible family of transformations where only Lipschitz conditions rather than strict architectural constraints are needed for enforcing invertibility. However, prior work trained invertible residual networks for density estimation by relying on biased log-density estimates whose bias increased with the network's expressiveness. We give a tractable unbiased estimate of the log density using a "Russian roulette" estimator, and reduce the memory required during training by using an alternative infinite series for the gradient. Furthermore, we improve invertible residual blocks by proposing the use of activation functions that avoid derivative saturation and generalizing the Lipschitz condition to induced mixed norms. The resulting approach, called Residual Flows, achieves state-of-the-art performance on density estimation amongst flow-based models, and outperforms networks that use coupling blocks at joint generative and discriminative modeling.
研究动机与目标
- 为密度估计提供灵活、可逆的体系结构,而不受限的雅可比结构。
- 提供无偏对数密度估计器,支持使用表达能力强的网络进行极大似然训练。
- 通过梯度技术与反向传播技巧在训练中降低内存使用。
- 改进激活与 Lipschitz 控制,防止导数饱和并拓宽可行范数范围。
提出的方法
- 采用具 Lipschitz 约束的可逆残差网络,以实现灵活的自由形式雅可比矩阵。
- 利用类似俄罗斯轮盘的随机截断对数行列式级数,推导无偏对数密度估计。
- 在无偏估计器中使用 Skilling-Hutchinson 跟踪估计来计算雅可比迹。
- 引入基于 Neumann级数的梯度,以在通过对数行列式项的反向传播时减少内存。
- 提出 LipSwish 激活以避免导数饱和,同时保持 Lipschitz 上限。
- 将 Lipschitz 约束推广到诱导混合范数并学习范数阶,以提升性能。
实验结果
研究问题
- RQ1无偏估计器是否能够为高度表达性的可逆残差网络提供极大似然训练?
- RQ2在基于流的模型中,如何实现对数行列式项的内存高效反向传播?
- RQ3带有合适激活函数的 Lipschitz 约束残差模块是否比耦合流在密度估计和采样质量上有改进?
- RQ4混合范数 Lipschitz 约束是否可以有效学习,并在不同数据集上提升性能?
主要发现
| 模型 | MNIST(比特/维) | CIFAR-10(比特/维) | ImageNet 32(比特/维) | ImageNet 64(比特/维) | CelebA-HQ-256(比特/维) |
|---|---|---|---|---|---|
| Real NVP (Dinh et al., 2017) | 1.06 | 3.49 | 4.28 | 3.98 | — |
| Glow (Kingma & Dhariwal, 2018) | 1.05 | 3.35 | 4.09 | 3.81 | 1.03 |
| FFJORD (Grathwohl et al., 2019) | 0.99 | 3.40 | — | — | — |
| Flow++ (Ho et al., 2019) | — | 3.29 (3.09) | — (3.86) | — (3.69) | — |
| i-ResNet (Behrmann et al., 2019) | 1.05 | 3.45 | — | — | — |
| Residual Flow (Ours) | 0.970 | 3.280 | 4.010 | 3.757 | 0.992 |
- Residual Flows 在 MNIST、CIFAR-10、ImageNet 下采样及 CelebA-HQ 数据集上,与最先进的流模型相比具有竞争力甚至更优的密度估计性能。
- 带有俄罗斯轮盘式截断的无偏对数密度估计器使得对表达能力强的 i-ResNet 风格架构能够进行真正的极大似然训练。
- 内存高效的反向传播技术(Neumann 梯度级数和向后向前梯度)显著降低 peaked memory 使用量。
- LipSwish 激活在高 Lipschitz 约束下减少导数饱和,提升训练稳定性与性能。
- 在混合建模中,残差块在联合生成-判别任务(包括 MNIST 与 CIFAR-10)中优于耦合块。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。