QUICK REVIEW

[論文レビュー] Improving Variational Inference with Inverse Autoregressive Flow

Diederik P. Kingma, Tim Salimans|arXiv (Cornell University)|Jun 15, 2016

Generative Adversarial Networks and Image Synthesis参考文献 33被引用数 185

ひとこと要約

逆自己回帰フロー（IAF）を導入し、高次元潜在空間のスケーラブルな正規化フローを用いて、VAEの変分後方分布を大幅に改善し、CIFAR-10で高速サンプリングと競争力のある対数尤度を達成する。

ABSTRACT

The framework of normalizing flows provides a general strategy for flexible variational inference of posteriors over latent variables. We propose a new type of normalizing flow, inverse autoregressive flow (IAF), that, in contrast to earlier published flows, scales well to high-dimensional latent spaces. The proposed flow consists of a chain of invertible transformations, where each transformation is based on an autoregressive neural network. In experiments, we show that IAF significantly improves upon diagonal Gaussian approximate posteriors. In addition, we demonstrate that a novel type of variational autoencoder, coupled with IAF, is competitive with neural autoregressive models in terms of attained log-likelihood on natural images, while allowing significantly faster synthesis.

研究の動機と目的

変分推論における単純な因子化後方分布の限界を動機づけ、これに対処する。
高次元潜在空間に適したスケーラブルな正規化フローを導入する。
後方分布の柔軟性の向上とより厳密な変分下限を示す。
実データセット上での深層VAEアーキテクチャにおける性能向上を示す。

提案手法

z0が単純な分布から取り出され、自己回帰的で可逆なステップの連鎖を通じて変換される、逆自己回帰フロー（IAF）を提案する。
各ステップzt = μt + σt ⊙ zt−1、自己回帰ネットワークがμt、σt、及び扱いやすい対数行列式を生成する。
LSTM更新に触発された忘却ゲートバイアスを用いた数値的に安定な変種を提供する。
高次元の潜在変数にはPixelCNNベースの自己回帰ネットワーク（MADE系）を用いる。
ステップ間で変数の順序を反転させて体積を保存可能にする；閉形式の対数行列式を導出（−log σiの和）。
MNISTとCIFAR-10の深層VAEにおける表現力の高い後方分布としてIAFを評価し、対角ガウスや他のフローと比較する。

実験結果

リサーチクエスチョン

RQ1逆自己回帰フローは高次元の潜在空間に対してスケーラブルで柔軟な後方近似を提供するのか？
RQ2IAFは標準的な画像データセットにおける変分下限の厳密さと達成される対数尤度にどう影響するのか？
RQ3IAFを用いたVAEのサンプリング速度はPixelCNNのような自己回帰生成モデルと比べてどうか？
RQ4複数のIAF変換を積み重ね、自己回帰ネットワークを使用することで、MNISTとCIFAR-10の性能にどう影響するか？
RQ5IAFは合成のための効率的なサンプリングを維持しつつ、競争力のある対数尤度を達成できるか？

主な発見

IAFは変分オートエンコーダーにおいて対角ガウス後方分布より顕著に改善する。
より深く、より広いIAF後方分布はMNISTでより厳密な変分下限とより良い対数尤度をもたらす。
CIFAR-10では、IAFを備えたResNet VAEが1次元あたり3.11ビットを達成し、最先端の潜在変数モデルと競合し、PixelCNNベースのモデルよりはるかに高速なサンプリングを実現。
ResNet VAE + IAFによるサンプリングはTitan Xで画像1枚あたり約0.05秒、PixelCNNベースのサンプリングは約52秒。
多層の自己回帰後方分布を用いると、固定の対角後方分布と比較して界を著しく厳しくし、生成モデリング性能を改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。