QUICK REVIEW

[論文レビュー] Invertible Residual Networks

Jens Behrmann, Will Grathwohl|arXiv (Cornell University)|Nov 2, 2018

Generative Adversarial Networks and Image Synthesis参考文献 53被引用数 170

ひとこと要約

本論文は標準のResNetを各残差ブロックにリプシッツ制約を課すことで可逆とする（i-ResNets）、単一のアーキテクチャで分類と扱いやすい密度推定/生成を実現可能にする。可逆性は簡易な訓練時の正規化と固定点逆演算によって達成され、競争力のある識別性能と競争力のあるフロー型生成モデリングをもたらす。

ABSTRACT

We show that standard ResNet architectures can be made invertible, allowing the same model to be used for classification, density estimation, and generation. Typically, enforcing invertibility requires partitioning dimensions or restricting network architectures. In contrast, our approach only requires adding a simple normalization step during training, already available in standard frameworks. Invertible ResNets define a generative model which can be trained by maximum likelihood on unlabeled data. To compute likelihoods, we introduce a tractable approximation to the Jacobian log-determinant of a residual block. Our empirical evaluation shows that invertible ResNets perform competitively with both state-of-the-art image classifiers and flow-based generative models, something that has not been previously achieved with a single architecture.

研究の動機と目的

ResNets を可逆にすることによって、次元を分割することなく識別と生成モデル間の橋渡しを行う。
残差ブロックに対するリプシッツ制約で可逆性を保証する。
ラベルなしデータに対して尤度ベースの訓練と扱いやすい密度推定を可能にする。
競争力のある画像分類性能と競争力のある生成モデリング結果を示す。
二重タスクでの i-ResNets の訓練と使用に関する実践的ガイドラインを提供する。

提案手法

ResNetブロックを Lipschitz 制約を受けた残差写像 Fθ = I + gθt として扱い、すべての t について Lip(gθt) < 1。
Banach の不動点定理を用いて、固定点反復により Fθ^{-1} を得ることで層を可逆化する。
各線形層のスペクトル正規化によって Lip 制約を課し、||Wi||2 < 1 を保証する（保守的なスケーリング係数 c < 1 を用いる）。
尤度のために必要な対数行列式を、Hutchinson のトレース推定と切り捨てられた級数（k項）を用いた tractable なべき級数近似によって計算する tr(log(I + Jg(x))) の近似を用いて。
スペクトル正規化、確率的対数行列式推定、固定点逆計算を組み合わせたフォワードパスアルゴリズム（Algorithm 2）を提供する。
Neural ODEs や他の可逆アーキテクチャとの関連を論じ、モデル間の解析的/逆特性を比較する。
密度推定のために normalizing flows として i-ResNets を訓練し、サンプルは z ~ pz をサンプリングして逆写像 F^{-1} を適用して得る。
項数と層数に比例してスケールする対数行列式のべき級数近似を用いることで高次元へのスケーラビリティに対処する。

Figure 1 : Dynamics of a standard residual network (left) and invertible residual network (right). Both networks map the interval $[-2,2]$ to: 1) noisy $x^{3}$ -function at half depth and 2) noisy identity function at full depth. Invertible ResNets describe a bijective continuous dynamics while regu

実験結果

リサーチクエスチョン

RQ1標準的な ResNet アーキテクチャを、次元を分割したり制約の多い設計選択をせずに可逆にできるか？
RQ2リプシッツ制約を課すことが、競争力のある識別性能を維持しつつ安定で扱いやすい密度推定と生成を可能にするか？
RQ3分類と生成タスクにおいて、i-ResNet は他の可逆アーキテクチャ（NICE, i-RevNet, Real-NVP, Glow, FFJORD）とどのように比較されるか？
RQ4信頼性の高い逆計算と正確な対数行列式推定を得るための実践的ガイドライン（例: スペクトル正規化の係数、べき級数の項数）とは何か？

主な発見

i-ResNets は Lip(g) < 1 をスペクトル正規化により課すことで可逆にでき、MNIST、CIFAR-10、CIFAR-100 での分類精度を大幅に損なうことなく実現できる。
i-ResNet ブロックの逆は固定点反復で計算でき、Banach の固定点定理を活用して安定な回復を実現する。
i-ResNets は標準の ResNet と比較して競争力のある識別性能を示し、CIFAR-10 の分類タスクではいくつかの Glow 変種を上回る。
生成モデルとして、i-ResNets は Glow および FFJORD に対して密度推定とサンプル品質で競争力を示すが、性能差の一部はバイアスのある対数行列式推定と最適化の課題に起因する。
提案された対数行列式近似（切り捨てられたべき級数と Hutchinson トレース推定を介して）は高次元へスケールし、i-ResNet フローの扱いやすい尤度計算を提供する。
表の比較は、MNIST と CIFAR-10 で i-ResNets が競争力のある bits-per-dimension を達成することを示している（例: MNIST は i-ResNet が約1.06 bits/dim、FFJORD は0.99、CIFAR-10 は約3.45 bits/dim）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。