QUICK REVIEW

[論文レビュー] Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks

Emily Denton, Soumith Chintala|arXiv (Cornell University)|Jun 18, 2015

Generative Adversarial Networks and Image Synthesis参考文献 28被引用数 1,657

ひとこと要約

本稿では、ラプラシアンピラミッドにおける条件付き生成対抗ネットワーク（GAN）の組み合わせを用いて、高品質な自然画像を合成する深層生成モデルLAPGANを提案する。複数のスケールで粗くから細かく画像を生成する際、各レベルが直前のレベルに条件付けられるようにすることで、ベースラインのGANと比較して著しく現実的である画像を生成し、CIFAR-10のサンプルにおいて人間による誤分類率が40%に達した。これは標準GANの10%と比較して顕著な向上を示している。

ABSTRACT

In this paper we introduce a generative parametric model capable of producing high quality samples of natural images. Our approach uses a cascade of convolutional networks within a Laplacian pyramid framework to generate images in a coarse-to-fine fashion. At each level of the pyramid, a separate generative convnet model is trained using the Generative Adversarial Nets (GAN) approach (Goodfellow et al.). Samples drawn from our model are of significantly higher quality than alternate approaches. In a quantitative assessment by human evaluators, our CIFAR10 samples were mistaken for real images around 40% of the time, compared to 10% for samples drawn from a GAN baseline model. We also show samples from models trained on the higher resolution images of the LSUN scene dataset.

研究の動機と目的

高次元の画像空間におけるグローバル生成モデリングの限界を克服するスケーラブルで高精細な自然画像用生成モデルの開発。
自然画像のマルチスケール構造を活用し、階層的で粗くから細かく生成するプロセスを用いて、サンプル品質の向上。
LSUN や CIFAR-10 のような複雑なデータセットに対し、より優れた視覚的精細度を実現する深層生成モデルのトレーニングとサンプリングの実現。
複数スケールで動作する条件付きGANが、標準GANと比較してより現実的なサンプルを生成できることの証明。
人間による評価を用いてサンプル品質を定量化し、従来のGANベース手法と比較して著しく現実性が向上していることを示すこと。

提案手法

モデルは画像を複数のスケールに分解するため、ラプラシアンピラミッド分解を用い、各レベルで低域帯の残差と帯域通過の詳細層に分割する。
各スケールで別個の条件付きGANをトレーニングし、生成器は直前のレベルの低域画像に条件付けられた帯域通過の詳細を生成する。
生成器ネットワークは、ランダムなノイズベクトルと粗い画像を入力とし、そのスケールでの洗練された画像詳細を出力する。
各レベルの識別器は、同じ粗い画像に条件付けられた実画像パッチと生成パッチを区別する。
サンプリングは、まず低周波成分の残差画像を生成し、その後、対応する生成器ネットワークを用いて各スケールで再帰的に洗練する。
対数尤度は、各スケールでParzen窓密度推定器を用いて推定され、結合密度はピラミッドの各レベルにおける条件付き密度の積としてモデル化される。

実験結果

リサーチクエスチョン

RQ1条件付きGANを用いた階層的で粗くから細かく生成するモデルは、グローバルGANと比較してより高品質な画像サンプルを生成できるか？
RQ2ラプラシアンピラミッドを用いて複数スケールで画像構造をモデル化することで、サンプルの現実性と多様性が向上するか？
RQ3条件付きGANのカスケードは、人間観測者に生成画像を本物と誤認させる程度に達するか？
RQ4本稿で提案するモデルの性能は、ベンチマークデータセット上で標準GANや他の深層生成モデルと比較して、定量的にどの程度優れているか？
RQ5本モデルは、より高解像度のデータセット（例：LSUN）に一般化可能であり、妥当なシーンレベルの画像を生成できるか？

主な発見

人間評価者はCIFAR-10の実画像のうちわずか60%しか正しく識別できず、人間の知覚閾値が高く、現実的なサンプルが稀であることを示している。
LAPGANで生成されたCIFAR-10のサンプルは、40%の確率で本物と誤認されたが、これは標準GANベースラインの10%と比較して顕著な向上を示している。
クラス条件付きLAPGANバージョンは40%の人間誤分類率を達成し、生成されたサンプルの強力な現実性を示している。
ベッドルーム、教会、塔を含むLSUNデータセットからのサンプルは視覚的に整合性があり、現実的であり、高解像度および複雑なシーンへのスケーラビリティを示している。
モデルの階層的構造により、反復的リファインメントを必要とせず、深層畳み込みネットワークのカスケードを通じて効率的な自己回帰的サンプリングが可能である。
対数尤度推定フレームワークにより、複数スケールにおける密度モデリングが可能であり、全尤度は各レベルにおける条件付き密度の積として計算される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。