QUICK REVIEW

[论文解读] Flow++: Improving Flow-Based Generative Models with Variational Dequantization and Architecture Design

Jonathan Ho, Xi Chen|arXiv (Cornell University)|Feb 1, 2019

Generative Adversarial Networks and Image Synthesis被引用 188

一句话总结

Flow++ 通过引入变分去量化、逻辑混合耦合流和自注意力条件化，推动非自回归流模型，在 CIFAR-10 和 32x32/64x64 ImageNet 上实现非自回归模型中的最优密度估计。它缩小了与自回归模型之间的差距，同时保持快速采样。

ABSTRACT

Flow-based generative models are powerful exact likelihood models with efficient sampling and inference. Despite their computational efficiency, flow-based models generally have much worse density modeling performance compared to state-of-the-art autoregressive models. In this paper, we investigate and improve upon three limiting design choices employed by flow-based models in prior work: the use of uniform noise for dequantization, the use of inexpressive affine flows, and the use of purely convolutional conditioning networks in coupling layers. Based on our findings, we propose Flow++, a new flow-based model that is now the state-of-the-art non-autoregressive model for unconditional density estimation on standard image benchmarks. Our work has begun to close the significant performance gap that has so far existed between autoregressive models and flow-based models. Our implementation is available at https://github.com/aravindsrinivas/flowpp

研究动机与目标

激发对流式模型的改进，在密度估计、采样速度与可处理的似然之间进行权衡。
指出先前流模型的三个限制性设计选择：均匀去量化、仿射耦合、以及纯卷积条件化。
提出 Flow++，具备变分去量化、逻辑混合 CDF 耦合，以及自注意力条件化，以提升密度建模性能。
展示在 CIFAR-10 和 ImageNet 上非自回归模型的最先进密度估计，并分析消融实验以量化各设计贡献。

提出的方法

使用变分去量化，其中去量化噪声 q(u|x) 由条件流 q_x(u) 建模，并与模型 p_model 共同优化。
在耦合层中用表达丰富的逻辑混合 CDF 耦合取代仿射耦合。
在生成耦合参数的条件网络中加入自注意力，通过带注意力块的门控残差网络实现。
通过可逆流组合 f = f1 ○ ... ○ fL 计算精确对数似然，并使用可处理的雅可比行列式用于训练与采样。
采用可微分的去量化目标，相比均匀去量化可提升训练和泛化能力（下界差距更小）。
在 CIFAR-10、32x32 ImageNet 和 64x64 ImageNet 上评估 Flow++，与非自回归和自回归基线进行比较，并对去量化、耦合和条件化进行消融研究。

实验结果

研究问题

RQ1变分去量化是否能在流模型中改进密度估计和泛化，相较于均匀去量化？
RQ2将仿射耦合替换为逻辑混合 CDF 耦合是否在不牺牲可处理性的前提下提升表达能力？
RQ3在条件网络中引入自注意力是否提升条件能力和密度建模性能？
RQ4非自回归 Flow++ 在保持快速采样的同时，在标准图像基准测试中能接近自回归模型到哪种程度？

主要发现

模型族	模型	CIFAR10（比特/维）	ImageNet 32x32（比特/维）	ImageNet 64x64（比特/维）
非自回归	RealNVP (Dinh et al., 2016)	3.49	4.28	–
非自回归	Glow (Kingma & Dhariwal, 2018)	3.35	4.09	3.81
非自回归	IAF-VAE (Kingma et al., 2016)	3.11	–	–
非自回归	Flow++ (ours)	3.08	3.86	3.69
自回归	Multiscale PixelCNN (Reed et al., 2017)	–	3.95	3.70
自回归	PixelCNN (van den Oord et al., 2016b)	3.14	–	–
自回归	PixelRNN (van den Oord et al., 2016b)	3.00	3.86	3.63
自回归	Gated PixelCNN (van den Oord et al., 2016c)	3.03	3.83	3.57
自回归	PixelCNN++ (Salimans et al., 2017)	2.92	–	–
自回归	Image Transformer (Parmar et al., 2018)	2.90	3.77	–
自回归	PixelSNAIL (Chen et al., 2017)	2.85	3.80	3.52
消融（去量化）	Uniform dequantization	3.292	–	–
消融（耦合）	Affine coupling	3.200	–	–
消融（条件化）	No self-attention	3.193	–	–
消融（完整 Flow++)	Flow++ (not converged for ablation)	3.165	–	–

Flow++ 在 CIFAR-10 以及 ImageNet (32x32 与 64x64) 的非自回归模型中实现了最先进的密度建模。
使用 1 个样本时，Flow++ 在 CIFAR-10 上达到 3.12 bits/dim；使用变分去量化进行训练相比均匀去量化可减少训练集与测试集之间的差距。
消融显示变分去量化比 Flow++ 多约 0.127 bits/dim；将逻辑混合耦合切换回仿射耦合约多 0.03 bits/dim；移除自注意力也约多 0.03 bits/dim。
Flow++ 的采样在感知上与 PixelCNN 这类自回归模型具有竞争力，且采样速度显著更快（例如 CIFAR-10 在单个 GPU 上对 8 个样本的采样约 0.32 秒）。
Flow++ 的结果与早期自回归模型（PixelCNN 家族）竞争，并且在所测试基准上超过先前的非自回归流，如 RealNVP 与 Glow 的密度估计。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。