QUICK REVIEW

[論文レビュー] Guided Image Generation with Conditional Invertible Neural Networks

Lynton Ardizzone, Carsten Lüth|arXiv (Cornell University)|Jul 4, 2019

Generative Adversarial Networks and Image Synthesis参考文献 42被引用数 262

ひとこと要約

この論文は、条件付き可逆ニューラルネットワーク（cINN）を導入し、可逆フローと条件ネットワークを組み合わせて、多様で高品質な条件付き画像生成を可能にし、最大尤度で訓練され、MNIST生成とImageNetカラー化で実証され、潜在空間の双方向操作を可能にします。

ABSTRACT

In this work, we address the task of natural image generation guided by a conditioning input. We introduce a new architecture called conditional invertible neural network (cINN). The cINN combines the purely generative INN model with an unconstrained feed-forward network, which efficiently preprocesses the conditioning input into useful features. All parameters of the cINN are jointly optimized with a stable, maximum likelihood-based training procedure. By construction, the cINN does not experience mode collapse and generates diverse samples, in contrast to e.g. cGANs. At the same time our model produces sharp images since no reconstruction loss is required, in contrast to e.g. VAEs. We demonstrate these properties for the tasks of MNIST digit generation and image colorization. Furthermore, we take advantage of our bi-directional cINN architecture to explore and manipulate emergent properties of the latent space, such as changing the image style in an intuitive way.

研究の動機と目的

新しいアーキテクチャ：INNと条件付け経路を組み合わせた条件付き可逆ニューラルネットワーク（cINN）を導入する。
INNと条件付けコンポーネントを共同最適化するための安定した最大尤度ベースの訓練手順を提供する。
再構成損失を用いずに多様性と高解像度を示し、条件付き生成におけるモード崩壊に対処する。
双方向設計を通じて潜在空間の新たな性質を探究し、画像属性の直感的な操作を可能にする。

提案手法

アフィン結合ブロックを条件入力へ拡張し、サブネットワークに条件付き c を付加する。
条件付けネットワーク h を用いて c を表現 c~ に前処理し、尤度訓練目的に組み込む。
pX(x; c, θ) = pZ(f(x; c, θ)) |det(df/dx)| を用いた最大尤度で訓練し、損失 E[-log pX] + 正則化を最小化する。
z ~ pZ(z) を引いて、逆変換 f^{-1}(z; c, θML) を適用して新しい画像をサンプルする。
潜在ベクトルが pZ の外側になると大きな尤度損失を受けるため、モード崩壊を回避する（ML 訓練）。
データ拡張（ノイズ）と安定化の工夫（s のソフトクランピング、Xavier 初期化、ソフトなチャネル置換）を取り入れる。

実験結果

リサーチクエスチョン

RQ1任意の入力を条件としてモード崩壊なしに、多様で高品質な画像を生成できる条件付き可逆アーキテクチャでしょうか？
RQ2再構成損失を避け、鋭い結果を生み出す条件付き生成のために、最大尤度訓練のみで cINN を訓練できるでしょうか？
RQ3画像のような複雑な条件付けに対して、条件付けネットワークは条件信号と全体的な生成品質をどのように改善しますか？
RQ4グレースケールやスタイル情報のような入力を条件として双方向 cINN でどのような潜在空間操作が可能になりますか？

主な発見

cINN フレームワークは、再構成損失に依存せず、多様でシャープな条件付き画像を生成する。
最大尤度訓練は安定した最適化をもたらし、いくつかのGANベース手法と比較してモード崩壊を緩和する。
本手法は条件付き MNIST の数字生成と ImageNet の多様なカラー化を実証し、条件付けと多様性の効果を示す。
双方向設計により、潜在変数を通じて画像スタイルの変更など、潜在空間に現れる特性の操作が可能になる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。