Skip to main content
QUICK REVIEW

[论文解读] Sliced Iterative Generator.

Biwei Dai, Uroš Seljak|arXiv (Cornell University)|Jul 1, 2020
Generative Adversarial Networks and Image Synthesis参考文献 18被引用 4
一句话总结

Sliced Iterative Generator(SIG)是一种基于归一化流的生成模型,通过在1D数据切片上进行迭代最优传输来匹配数据分布,在无需降维的情况下,于MNIST和Fashion-MNIST数据集上实现了最先进(SOTA)的FID分数。该方法支持高效的似然度评估和分布外(OOD)检测,同时避免了反向传播和小批量训练等标准深度学习实践。

ABSTRACT

We introduce the Sliced Iterative Generator (SIG), an iterative generative model that is a Normalizing Flow (NF), but shares the advantages of Generative Adversarial Networks (GANs). The model is based on iterative Optimal Transport of a series of 1D slices through the data space, matching on each slice the probability distribution function (PDF) of the samples to the data. To improve the efficiency, the directions of the orthogonal slices are chosen to maximize the PDF difference between the generated samples and the data using Wasserstein distance at each iteration. A patch based approach is adopted to model the images in a hierarchical way, enabling the model to scale well to high dimensions. Unlike GANs, SIG has a NF structure and allows efficient likelihood evaluations that can be used in downstream tasks. We show that SIG is capable of generating realistic, high dimensional samples of images, achieving state of the art FID scores on MNIST and Fashion MNIST without any dimensionality reduction. It also has good Out of Distribution detection properties using the likelihood. To the best of our knowledge, SIG is the first iterative (greedy) deep learning algorithm that is competitive with the state of the art non-iterative generators in high dimensions. While SIG has a deep neural network architecture, the approach deviates significantly from the current deep learning paradigm, as it does not use concepts such as mini-batching, stochastic gradient descent, gradient back-propagation through deep layers, or non-convex loss function optimization. SIG is very insensitive to hyper-parameter tuning, making it a useful generator tool for ML experts and non-experts alike.

研究动机与目标

  • 开发一种深度生成模型,结合生成对抗网络(GAN)的样本质量与归一化流的似然度评估能力。
  • 实现在无需降维的情况下的高维图像生成,尤其适用于MNIST和Fashion-MNIST等数据集。
  • 设计一种无需训练、对超参数不敏感的框架,避免使用标准深度学习优化范式。
  • 利用基于归一化流结构的似然度分数,提升分布外(OOD)检测性能。
  • 通过基于最优传输的迭代、贪心优化策略,实现具有竞争力的性能表现。

提出的方法

  • 模型在数据空间的正交1D切片上执行迭代最优传输,使生成样本的PDF与数据PDF在每个切片上对齐。
  • 在每次迭代中,选择能最大化生成PDF与数据PDF之间Wasserstein距离的方向作为下一个切片方向,确保逐步改进。
  • 采用基于补丁的分层方法来建模图像,从而实现对高维数据的可扩展性。
  • 利用归一化流架构实现精确的似然度计算,支持下游任务如OOD检测。
  • 训练过程避免使用小批量训练、随机梯度下降和深度网络中的反向传播,转而依赖于迭代切片优化。
  • 该方法本质上是贪心的,逐步更新流结构,无需对非凸损失函数进行端到端优化。

实验结果

研究问题

  • RQ1一种基于迭代、非反向传播的深度学习模型是否能在高维空间中实现最先进(SOTA)的图像生成质量?
  • RQ2基于归一化流的生成器是否能在保持高样本保真度的同时,实现高效的似然度评估和OOD检测?
  • RQ3基于切片的最优传输方法,结合自适应方向选择,是否在高维图像生成中优于标准GAN和归一化流?
  • RQ4与传统深度生成模型相比,该方法在多大程度上对超参数调优具有鲁棒性?
  • RQ5基于1D切片上Wasserstein距离的贪心、迭代优化策略,是否能有效建模复杂数据分布,而无需端到端训练?

主要发现

  • SIG在MNIST和Fashion-MNIST数据集上均实现了最先进(SOTA)的Fréchet Inception Distance(FID)分数,且无需任何降维处理。
  • 由于其归一化流结构,该模型支持精确的似然度评估,从而可靠地实现分布外(OOD)检测。
  • SIG对超参数调优具有极强的鲁棒性,适用于专家与非专家用户。
  • 迭代式、基于切片的方法通过分层补丁策略,有效实现了对高维图像数据的建模。
  • SIG是首个在高维空间中性能可媲美非迭代最先进生成器的迭代(贪心)深度学习算法。
  • 通过避免反向传播和小批量训练,SIG脱离了标准深度学习范式,同时保持了强大的生成性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。