[論文レビュー] Flow++: Improving Flow-Based Generative Models with Variational Dequantization and Architecture Design
Flow++は非自己回帰フロー・モデルを進歩させ、変分的デ量子化、ロジスティック混合結合フロー、自己注意条件付けを導入することで、CIFAR-10および32x32/64x64 ImageNetで非自己回帰モデルの最先端密度推定を達成します。自己回帰モデルとのギャップを縮めつつ、サンプリングの高速性を維持します。
Flow-based generative models are powerful exact likelihood models with efficient sampling and inference. Despite their computational efficiency, flow-based models generally have much worse density modeling performance compared to state-of-the-art autoregressive models. In this paper, we investigate and improve upon three limiting design choices employed by flow-based models in prior work: the use of uniform noise for dequantization, the use of inexpressive affine flows, and the use of purely convolutional conditioning networks in coupling layers. Based on our findings, we propose Flow++, a new flow-based model that is now the state-of-the-art non-autoregressive model for unconditional density estimation on standard image benchmarks. Our work has begun to close the significant performance gap that has so far existed between autoregressive models and flow-based models. Our implementation is available at https://github.com/aravindsrinivas/flowpp
研究の動機と目的
- 密度推定、サンプリング速度、そして扱いやすい対数尤度のトレードオフを持つフロー系モデルの改善を動機づける。
- 従来のフロー Modelsにおける三つの制限設計選択を同定する:一様デ量子化、アファイン結合、および純粋な畳み込み条件付け。
- Flow++を、変分的デ量子化、ロジスティック混合CDF結合、自己注意による条件付けで密度推定性能を向上させる。
- CIFAR-10とImageNetにおける非自己回帰モデルの最先端密度推定を実証し、デ量子化・結合・条件付け各設計の寄与を定量化するアブレーションを分析する。
提案手法
- デ量子化ノイズq(u|x)を条件付きフローqx(u)でモデル化し、モデルp_modelと共同最適化することで変分的デ量子化を用いる。
- 結合層でアファイン結合を表現力豊かなロジスティック混合CDF結合に置換する。
- 結合パラメータを生成する条件付けネットワークに、注意ブロックを含むゲート付き残差ネットワークを介して自己注意を組み込む。
- 可逆フローの合成f = f1 ○ ... ○ fLにより正確な対数尤度を計算し、トレーニングとサンプリングのために扱いやすいヤコビアン行列式を用いる。
- 一様デ量子化よりもトレーニングと一般化を改善する微分可能なデ量子化目的を採用する(下限ギャップが小さくなる)。
- Flow++をCIFAR-10、32x32 ImageNet、64x64 ImageNetで評価し、非自己回帰および自己回帰のベースラインと比較し、デ量子化、結合、条件付けのアブレーションを実施する。
実験結果
リサーチクエスチョン
- RQ1標準的なフロー模型において、変分的デ量子化は一様デ量子化より密度推定と一般化を改善できるか。
- RQ2アファイン結合をロジスティック混合CDF結合に置換することは、実現可能性を損なうことなく表現力を高められるか。
- RQ3条件付けネットワークに自己注意を導入することで、条件付け能力と密度モデリング性能は改善されるか。
- RQ4非自己回帰のFlow++は、サンプリングの速さを維持しつつ、標準的な画像ベンチマークで自己回帰モデルにどれだけ近づくことができるか。
主な発見
| モデルファミリー | モデル | CIFAR10 (bits/dim) | ImageNet 32x32 (bits/dim) | ImageNet 64x64 (bits/dim) |
|---|---|---|---|---|
| Non-autoregressive | RealNVP (Dinh et al., 2016) | 3.49 | 4.28 | – |
| Non-autoregressive | Glow (Kingma & Dhariwal, 2018) | 3.35 | 4.09 | 3.81 |
| Non-autoregressive | IAF-VAE (Kingma et al., 2016) | 3.11 | – | – |
| Non-autoregressive | Flow++ (ours) | 3.08 | 3.86 | 3.69 |
| Autoregressive | Multiscale PixelCNN (Reed et al., 2017) | – | 3.95 | 3.70 |
| Autoregressive | PixelCNN (van den Oord et al., 2016b) | 3.14 | – | – |
| Autoregressive | PixelRNN (van den Oord et al., 2016b) | 3.00 | 3.86 | 3.63 |
| Autoregressive | Gated PixelCNN (van den Oord et al., 2016c) | 3.03 | 3.83 | 3.57 |
| Autoregressive | PixelCNN++ (Salimans et al., 2017) | 2.92 | – | – |
| Autoregressive | Image Transformer (Parmar et al., 2018) | 2.90 | 3.77 | – |
| Autoregressive | PixelSNAIL (Chen et al., 2017) | 2.85 | 3.80 | 3.52 |
| Ablation (dequant) | Uniform dequantization | 3.292 | – | – |
| Ablation (coupling) | Affine coupling | 3.200 | – | – |
| Ablation (conditioning) | No self-attention | 3.193 | – | – |
| Ablation (full Flow++) | Flow++ (not converged for ablation) | 3.165 | – | – |
- Flow++はCIFAR-10およびImageNet(32x32および64x64)で非自己回帰モデルの最先端密度モデリングを達成。
- 1サンプルでFlow++はCIFAR-10で3.12 bits/dimを達成。変分的デ量子化を用いた訓練は一様デ量子化と比較して訓練・評価ギャップを縮小。
- アブレーションは変分的デ量子化がFlow++より約0.127 bits/dim多くコストを要すること、ロジスティック混合結合からアファイン結合への置換が約0.03 bits/dimのコスト、自己注意の除去も約0.03 bits/dimのコストを生むことを示す。
- Flow++のサンプルはPixelCNN型の自己回帰モデルに perceptually 競合的であり、サンプリングの大幅な高速化を実現(例:CIFAR-10のサンプリングは単一GPUで8サンプルを約0.32秒程度)。
- Flow++の結果は初期の自己回帰モデル(PixelCNNファミリ)と競合し、RealNVPやGlowのような従来の非自己回帰フローを密度推定で上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。