QUICK REVIEW

[論文レビュー] Compositional GAN: Learning Conditional Image Composition

Samaneh Azadi, Deepak Pathak|arXiv (Cornell University)|Jul 19, 2018

Generative Adversarial Networks and Image Synthesis参考文献 28被引用数 26

ひとこと要約

本稿では、自己整合性のある構成・分解ネットワークを学習することで、画像生成中に複数のオブジェクト間の空間的相互作用をモデル化する条件付き GAN フレームワーク、Compositional GAN を提案する。対応のない訓練データでさえも、周辺分布から抽出されたオブジェクト画像から現実的で構成されたシーンを生成でき、定性的およびユーザーレビューを通じて、隠蔽、スケーリング、空間的レイアウトの有効なモデル化が示された。

ABSTRACT

Generative Adversarial Networks (GANs) can produce images of surprising complexity and realism, but are generally modeled to sample from a single latent source ignoring the explicit spatial interaction between multiple entities that could be present in a scene. Capturing such complex interactions between different objects in the world, including their relative scaling, spatial layout, occlusion, or viewpoint transformation is a challenging problem. In this work, we propose to model object composition in a GAN framework as a self-consistent composition-decomposition network. Our model is conditioned on the object images from their marginal distributions to generate a realistic image from their joint distribution by explicitly learning the possible interactions. We evaluate our model through qualitative experiments and user evaluations in both the scenarios when either paired or unpaired examples for the individual object images and the joint scenes are given during training. Our results reveal that the learned model captures potential interactions between the two object domains given as input to output new instances of composed scene at test time in a reasonable fashion.

研究の動機と目的

シーン内の複数のオブジェクト間の明示的な空間的相互作用をモデル化できない既存の GAN の制限を解決すること。
出力シーンが個々のオブジェクト画像（それらの周辺分布から抽出）から構成されるような条件付き画像生成を可能にすること。
オブジェクトペアとその合成シーンのペアド訓練例が不要な状態で、オブジェクトの組み合わせの連合分布を学習すること。
生成画像における隠蔽、相対的スケーリング、空間的レイアウト、視点変換といった複雑な相互作用をモデル化すること。

提案手法

モデルは、オブジェクト画像をシーンに組み合わせる作業と、シーンを元のオブジェクトに分解する作業を交互に繰り返す自己整合性のある構成・分解ネットワークを採用する。
生成を、それらの周辺分布からサンプリングされたオブジェクト画像に条件づけることで、モデルが意味的にそれらを組み合わせる方法を学習できるようにする。
敵対的訓練を用いて生成画像の現実性を保証するとともに、構成・分解サイクルが構造的整合性を強制する。
ペアドデータとアンパイルドデータの両方を用いて訓練することで、異なる訓練データ環境に一般化できるようにする。
微分可能な構成メカニズムを通じて、隠蔽や相対的位置関係といった空間的相互作用を明示的にモデル化する。

実験結果

リサーチクエスチョン

RQ1ペアド訓練データを必要としない GAN フレームワークは、複数のオブジェクト間の空間的相互作用を画像生成中に効果的にモデル化できるか？
RQ2個々のオブジェクトと合成シーンのペアド例が利用できない状況でも、モデルは現実的で構成された画像をどれほどうまく生成できるか？
RQ3自己整合性のある構成・分解メカニズムは、生成されたシーンの現実性と構造的整合性をどの程度向上させるか？
RQ4モデルは、隠蔽、スケーリング、視点変動といった複雑な相互作用を、構成されたシーンでどれほど効果的に捉えられるか？

主な発見

訓練中にペアド例が存在しなくても、周辺分布から抽出されたオブジェクト画像から現実的で構成されたシーンを生成できることを示した。
ユーザーレビューにより、生成された構成が現実的で整合的であり、オブジェクト間の空間的関係が妥当であると認識されていることが確認された。
定性的な結果から、モデルが隠蔽や相対的スケーリングといった複雑な相互作用を妥当で一貫した方法で捉えていることが示された。
自己整合性のある構成・分解メカニズムにより、ベースラインの GAN よりも生成画像の構造的忠実度が向上した。
モデルはさまざまなオブジェクトドメインに一般化でき、空間的レイアウトとオブジェクト関係の整合性を維持している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。