Skip to main content
QUICK REVIEW

[论文解读] Sylvester Normalizing Flows for Variational Inference

Rianne van den Berg, Leonard Hasenclever|arXiv (Cornell University)|Mar 15, 2018
Generative Adversarial Networks and Image Synthesis被引用 39
一句话总结

该论文提出了Sylvester归一化流(SNFs),作为平面流的泛化,通过使用正交或三角变换矩阵消除了单单位瓶颈,从而实现更灵活且表达力更强的变分后验。SNFs在多个数据集上实现了最先进性能,优于平面流和逆自回归流(IAFs),特别是在通过超网络实现数据相关流参数时表现更优。

ABSTRACT

Variational inference relies on flexible approximate posterior distributions. Normalizing flows provide a general recipe to construct flexible variational posteriors. We introduce Sylvester normalizing flows, which can be seen as a generalization of planar flows. Sylvester normalizing flows remove the well-known single-unit bottleneck from planar flows, making a single transformation much more flexible. We compare the performance of Sylvester normalizing flows against planar flows and inverse autoregressive flows and demonstrate that they compare favorably on several datasets.

研究动机与目标

  • 解决平面流因单单位瓶颈而限制表达力的局限性。
  • 开发一种更灵活高效且保持可 tractable(可计算)雅可比行列式)的归一化流家族。
  • 探究使用数据相关流参数是否相比上下文相关IAFs能提升性能。
  • 在基准数据集上比较Sylvester流的多种变体——正交、Householder和三角。
  • 证明SNFs在ELBO和对数似然方面优于现有归一化流基线。

提出的方法

  • Sylvester归一化流通过形如 $ z = f_{\theta}(y) = y + A h(B y + b) $ 的变换对平面流进行泛化,其中 $ A $ 和 $ B $ 为可学习矩阵。
  • 该方法利用Sylvester行列式恒等式高效计算变换的雅可比行列式。
  • 通过将 $ A $ 和 $ B $ 约束为正交或三角矩阵来保证可逆性,正交矩阵通过Householder反射或迭代正交化构造。
  • 提出三种变体:正交SNFs(O-SNF)、Householder SNFs(H-SNF)和三角SNFs(T-SNF),每种具有不同的参数化策略。
  • 通过超网络使流参数依赖于数据,使变换能根据输入 $ \mathbf{x} $ 自适应调整,与IAFs使用固定上下文向量不同。
  • 采用摊销推断,编码器网络生成基于输入数据的流参数,实现高效的后验近似。

实验结果

研究问题

  • RQ1一种消除单单位瓶颈的平面流泛化方法是否能在变分推断中实现更优的后验近似?
  • RQ2Sylvester归一化流在标准基准数据集上的性能与平面流和逆自回归流相比如何?
  • RQ3通过超网络使用数据相关流参数是否相比上下文相关IAFs能带来性能提升?
  • RQ4不同的矩阵参数化方式(正交、Householder、三角)对流的表达力和训练稳定性有何影响?
  • RQ5Sylvester流能否在ELBO和对数似然值上优于现有归一化流基线?

主要发现

  • Sylvester归一化流在MNIST、Freyfaces、Omniglot和Caltech 101草图数据集上均优于平面流和逆自回归流,所有SNF变体均实现了更优的ELBO和负对数似然得分。
  • 在MNIST上,O-SNF($ M=32 $)和H-SNF($ H=8 $)个Householder反射达到最佳性能,负对数似然为 $ 98.85 \pm 0.20 $,显著优于IAF(1280)的 $ 99.74 \pm 0.28 $。
  • 三角Sylvester流(T-SNF)与仅使用均值的IAFs密切相关,但因使用数据相关流参数而优于IAFs,表明参数对输入 $ \mathbf{x} $ 的依赖性可增强灵活性。
  • IAFs在Caltech 101草图上的表现较差,1280宽度的MADE版本仅获得 $ 99.74 \pm 0.28 $ 的负对数似然,表明在高参数量下可能存在过拟合或训练困难。
  • 在Omniglot和Caltech 101上,Householder和三角SNFs优于正交SNFs,可能是因为后者的瓶颈更大($ M=32 $)在高维空间中限制了表达力。
  • 在Freyfaces上,平面流略优于SNFs,可能是因为小数据集上过拟合风险较低,但SNFs仍表现出强劲性能,表明其在不同数据规模下具有鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。