Skip to main content
QUICK REVIEW

[論文レビュー] Image Generation from Scene Graphs

Justin Johnson, Agrim Gupta|arXiv (Cornell University)|Apr 4, 2018
Multimodal Machine Learning Applications被引用数 47
ひとこと要約

本論文は、グラフ畳込みでグラフを処理し、境界ボックスとマスクのシーンレイアウトを予測し、カスケード型改良ネットワーク(CRN)を用いてレンダリングするエンドツーエンドのモデルを提案し、敵対的識別器で訓練することで、シーン・グラフから現実的な画像を生成する。

ABSTRACT

To truly understand the visual world our models should be able not only to recognize images but also generate them. To this end, there has been exciting recent progress on generating images from natural language descriptions. These methods give stunning results on limited domains such as descriptions of birds or flowers, but struggle to faithfully reproduce complex sentences with many objects and relationships. To overcome this limitation we propose a method for generating images from scene graphs, enabling explicitly reasoning about objects and their relationships. Our model uses graph convolution to process input graphs, computes a scene layout by predicting bounding boxes and segmentation masks for objects, and converts the layout to an image with a cascaded refinement network. The network is trained adversarially against a pair of discriminators to ensure realistic outputs. We validate our approach on Visual Genome and COCO-Stuff, where qualitative results, ablations, and user studies demonstrate our method's ability to generate complex images with multiple objects.

研究の動機と目的

  • 複数のオブジェクトと関係を持つ複雑なシーンを扱うために、構造化されたシーングラフから画像を生成する動機付け。
  • オブジェクトの配置とレイアウトを導くためのシーングラフのグラフベース埋め込みを開発する。
  • 象徴的なシーングラフからピクセルレベルの画像へ、シーンレイアウトとCRNベースのレンダリングを介して橋渡しする。

提案手法

  • グラフ畳込みネットワークでシーングラフを処理し、オブジェクト埋め込みを生成する。
  • 各オブジェクトの境界ボックスとセグメンテーションマスクを予測してシーンレイアウトを形成する。
  • シーンレイアウトをカスケード型改良ネットワーク(CRN)を用いて画像にレンダリングする。
  • 画像空間識別器とオブジェクト焦点識別器の2つの識別器を用いて、全パイプラインを敵対的に訓練する。

実験結果

リサーチクエスチョン

  • RQ1複雑なシーンで正確なオブジェクトと関係を持つ画像を生成するために、シーングラフを活用できるか?
  • RQ2グラフベースの推論は、画像合成のためのオブジェクト位置決めとレイアウト予測を改善するか?
  • RQ3レイアウトベースのアプローチは、認識可能なオブジェクトと意味的忠実性を生み出す点で、テキストから画像への方法とどう比較されるか?
  • RQ4敵対的訓練とオブジェクトレベルの識別が画像の現実味に与える寄与は何か?

主な発見

  • 提案手法は、Visual GenomeおよびCOCO-Stuff上で入力シーングラフを尊重する複雑な画像を生成する。
  • グラフ畳込みと関係モデリングは、アブレーションと比較してオブジェクトの局在化とレイアウトの多様性を改善する。
  • D_imgとD_objを用いた敵対的訓練は、ピクセルのみの訓練よりも現実的な画像と認識可能なオブジェクトを生み出す。
  • ユーザ調査では、対応するCOCO由来タスクにおいて、StackGANよりもシーングラフベース手法の方が意味的解釈性とオブジェクト想起が高いことが示された。
  • 予測レイアウト(境界ボックスとマスク)は、テスト時に真のレイアウトが利用できない場合でも有効である。
  • 真のレイアウトはさらに画像品質を向上させ、レンダリングよりもレイアウト予測にボトルネックがあることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。