[论文解读] SurVAE Flows: Surjections to Bridge the Gap between VAEs and Flows
SurVAE 流引入了一个统一、模块化的框架,通过使用满射变换(即确定性前向映射与随机逆映射)将变分自编码器(VAEs)与归一化流(normalizing flows)相连接,实现了精确的似然计算,同时支持维度变化、离散数据和复杂结构。该方法支持可组合的层,如最大池化、排序和随机排列,实现在图像和点云生成任务中具有精确似然的最先进性能。
Normalizing flows and variational autoencoders are powerful generative models that can represent complicated density functions. However, they both impose constraints on the models: Normalizing flows use bijective transformations to model densities whereas VAEs learn stochastic transformations that are non-invertible and thus typically do not provide tractable estimates of the marginal likelihood. In this paper, we introduce SurVAE Flows: A modular framework of composable transformations that encompasses VAEs and normalizing flows. SurVAE Flows bridge the gap between normalizing flows and VAEs with surjective transformations, wherein the transformations are deterministic in one direction -- thereby allowing exact likelihood computation, and stochastic in the reverse direction -- hence providing a lower bound on the corresponding likelihood. We show that several recently proposed methods, including dequantization and augmented normalizing flows, can be expressed as SurVAE Flows. Finally, we introduce common operations such as the max value, the absolute value, sorting and stochastic permutation as composable layers in SurVAE Flows.
研究动机与目标
- 通过引入一个可组合的框架,统一 VAE 和归一化流的优势,支持精确似然估计和灵活的架构设计。
- 解决现有模型的局限性,例如无法处理离散数据、连通分量不连通或维度变化的问题,同时保持似然的可计算性。
- 提供一个模块化的软件框架,其中变换可组合,具备清晰的前向、逆向和对数似然计算组件。
- 证明近期的专用模型(如去量化、增强流)可作为 SurVAE 流框架的特例表达。
- 引入新型可组合层,如最大值、绝对值、排序和随机排列,用于建模对称性和交换性数据。
提出的方法
- 引入满射变换作为 VAE(随机、非可逆)与归一化流(双射、可逆)之间的桥梁,其中前向映射为确定性,逆映射为随机性。
- 定义一个由三部分组成的模块化框架:前向变换、随机逆变换和通过雅可比行列式与条件熵计算对数似然。
- 设计可组合的层,包括最大池化、绝对值、排序和随机排列,每种层均具有显式的前向和随机逆映射。
- 使用可逆耦合层和 1×1 卷积作为基础构建模块,由深度网络(如 DenseNets、Transformers)参数化,以实现表达能力强的流。
- 实现变分去量化和挤压层,以处理离散图像数据并提升似然估计性能。
- 使用随机梯度下降进行最大似然训练,利用前向路径中的精确对数似然和反向路径中的变分下界。
实验结果
研究问题
- RQ1能否设计一个统一且可组合的框架,将归一化流的精确似然与 VAE 在处理维度变化和离散数据方面的灵活性相结合?
- RQ2如何利用满射变换定义确定性前向映射与随机逆映射,同时仍能实现精确似然计算?
- RQ3最大池化、排序和随机排列等常见操作能否在概率流框架中形式化为可微、可组合的层?
- RQ4现有专用模型(如去量化、增强流)在多大程度上可表示为该新型 SurVAE 流框架的实例?
- RQ5SurVAE 流在图像和点云等复杂数据上的实际表现如何,特别是在似然和样本质量方面?
主要发现
- SurVAE 流在 CIFAR-10、ImageNet 32×32 和 ImageNet 64×64 数据集上实现了最先进水平的似然性能,其中 MaxPoolFlow 变体在所有基准测试中均优于基线流模型。
- MaxPoolFlow 模型通过使用最大池化满射变换,在实现维度压缩的同时,仍能保持精确的似然计算,且表现具有竞争力。
- SurVAE 流通过使用绝对值和排序等层,成功建模了离散和对称的数据结构,这些功能在标准归一化流中并不原生支持。
- 该框架统一了多种模型:去量化、增强流和随机排列层均可表示为 SurVAE 流组件。
- 实验表明,SurVAE 流在合成数据、点云和图像数据上均能生成高质量样本,其视觉质量与或优于基线模型。
- 开源代码支持可复现性和模块化扩展,提供预训练模型,并支持多种架构,包括 Transformers 和 DenseNets。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。