[論文レビュー] Residual Flows for Invertible Generative Modeling
本論文は、ロシアンルーレット推定量を用いた可逆残差ネットワークを用いた無偏倖記憶効率のフロー型モデルである Residual Flows を導入し、密度推定の競争力と高い生成・識別パフォーマンスを達成します。
Flow-based generative models parameterize probability distributions through an invertible transformation and can be trained by maximum likelihood. Invertible residual networks provide a flexible family of transformations where only Lipschitz conditions rather than strict architectural constraints are needed for enforcing invertibility. However, prior work trained invertible residual networks for density estimation by relying on biased log-density estimates whose bias increased with the network's expressiveness. We give a tractable unbiased estimate of the log density using a "Russian roulette" estimator, and reduce the memory required during training by using an alternative infinite series for the gradient. Furthermore, we improve invertible residual blocks by proposing the use of activation functions that avoid derivative saturation and generalizing the Lipschitz condition to induced mixed norms. The resulting approach, called Residual Flows, achieves state-of-the-art performance on density estimation amongst flow-based models, and outperforms networks that use coupling blocks at joint generative and discriminative modeling.
研究の動機と目的
- 密度推定のために制限的なヤコビ行列構造に依らない柔軟で可逆なアーキテクチャを動機づける。
- 表現力豊かなネットワークを用いた最大似然学習を可能にする無偏の対数密度推定量を提供する。
- 勾配法とバックプロパゲーションの工夫によって学習時のメモリ使用量を削減する。
- 微分の飽和を防ぎつつリーマン的なリプス最小限の制約内で活性化とリプシッツ制御を改善する。
提案手法
- リプシッツ制約を満たす可逆残差ネットワークを採用して柔軟な自由形のヤコビアンを可能にする。
- 対数決定の級数のロシアンルーレット型の乱択切り捨てを用いて無偏の対数密度推定量を導出する。
- 推定量内でSkilling-Hutchinsonのトレース推定を用いてヤコビアンのトレースを計算する。
- 対数決定項を通したバックプロパゲーション中のメモリを削減するためにNeumann級数に基づく勾配を導入する。
- 導関数飽和を避けつつリプシッツ境界を維持する LipSwish 活性化を提案する。
- 学習中に混合ノルムのリプシッツ制約を一般化し、ノルム次数を学習して性能を向上させる。
実験結果
リサーチクエスチョン
- RQ1高い表現力を持つ可逆残差ネットワークに対して無偏推定量は最大似然学習を可能にするか。
- RQ2フロー系モデルにおける対数決定項のメモリ効率の良いバックプロパゲーションをどのように実現するか。
- RQ3適切な活性化を伴うリプシッツ制約付き残差ブロックは結合型フローと比較して密度推定とサンプル品質を改善するか。
- RQ4混合ノルムのリプシッツ制約を効果的に学習できるかつ、それがデータセット全体で性能を改善するか。
主な発見
| モデル | MNIST (bits/dim) | CIFAR-10 (bits/dim) | ImageNet 32 (bits/dim) | ImageNet 64 (bits/dim) | CelebA-HQ 256 (bits/dim) |
|---|---|---|---|---|---|
| Real NVP (Dinh et al., 2017) | 1.06 | 3.49 | 4.28 | 3.98 | — |
| Glow (Kingma & Dhariwal, 2018) | 1.05 | 3.35 | 4.09 | 3.81 | 1.03 |
| FFJORD (Grathwohl et al., 2019) | 0.99 | 3.40 | — | — | — |
| Flow++ (Ho et al., 2019) | — | 3.29 (3.09) | — (3.86) | — (3.69) | — |
| i-ResNet (Behrmann et al., 2019) | 1.05 | 3.45 | — | — | — |
| Residual Flow (Ours) | 0.970 | 3.280 | 4.010 | 3.757 | 0.992 |
- Residual Flows は MNIST、CIFAR-10、下采样された ImageNet、CelebA-HQ において最先端のフローモデルと比較して競争力のある、あるいはそれを上回る密度推定性能を達成する。
- ロシアンルーレット型の切り捨てを用いた無偏の対数密度推定量は、表現力豊かな i-ResNet 型アーキテクチャの真の最大似然学習を可能にする。
- メモリ効率の良いバックプロパゲーション技術(Neumann 勾配級数と backward-in-forward gradient)はピークメモリ使用量を大幅に削減する。
- LipSwish 活性化は微分飽和を減少させ、高いリプシッツ制約下での学習安定性と性能を改善する。
- ハイブリッドモデリングでは残差ブロックが結合ブロックよりも共同的生成・識別タスクで優れており、MNIST および CIFAR-10 を含む。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。