Skip to main content
QUICK REVIEW

[論文レビュー] Learning to Predict Layout-to-image Conditional Convolutions for Semantic Image Synthesis

Xihui Liu, Guojun Yin|arXiv (Cornell University)|Oct 15, 2019
Generative Adversarial Networks and Image Synthesis被引用数 92
ひとこと要約

CC-FPSEを導入:レイアウト条件付き、深さwise separable畳み込みと特徴ピラミッド意味埋め込み識別器を用いた生成器により、セマンティックレイアウトから高忠実度で意味的に整合した画像を合成。Cityscapes、COCO-Stuff、ADE20Kで最先端を達成。

ABSTRACT

Semantic image synthesis aims at generating photorealistic images from semantic layouts. Previous approaches with conditional generative adversarial networks (GAN) show state-of-the-art performance on this task, which either feed the semantic label maps as inputs to the generator, or use them to modulate the activations in normalization layers via affine transformations. We argue that convolutional kernels in the generator should be aware of the distinct semantic labels at different locations when generating images. In order to better exploit the semantic layout for the image generator, we propose to predict convolutional kernels conditioned on the semantic label map to generate the intermediate feature maps from the noise maps and eventually generate the images. Moreover, we propose a feature pyramid semantics-embedding discriminator, which is more effective in enhancing fine details and semantic alignments between the generated images and the input semantic layouts than previous multi-scale discriminators. We achieve state-of-the-art results on both quantitative metrics and subjective evaluation on various semantic segmentation datasets, demonstrating the effectiveness of our approach.

研究の動機と目的

  • 活性化のアフィン変調を超えた、ジェネレータにおけるセマンティックレイアウトのより表現力豊かな利用を促す。
  • セマンティックマップから予測され、各位置で生成を制御する、レイアウト条件付きの空間変動畳み込みカーネルを提案する。
  • 特徴ピラミッド意味埋め込み識別器を用いて現実味とセマンティック整合を改善する。
  • 複数のセマンティックセグメンテーションデータセットで最先端性能を示す。
  • パラメータを抑制するために深さ方向分離畳み込みを活用した、効率的でスケーラブルなアーキテクチャを提供する。

提案手法

  • 空間的に変化するカーネルがセマンティックレイアウトから予測される条件付き畳み込みブロックを提案する。
  • 畳み込みを深さ方向とポイントワイズの成分に分解してパラメータを削減する。
  • グローバル文脈対応の、特徴ピラミッドウェイト予測器を用いて、位置ごとの畳み込み重みとアテンションマップを生成する。
  • 複数スケールで高忠実度の細部とセマンティック整合を強制する、特徴ピラミッド意味埋め込み識別器を導入する。
  • ヒンジ損失の敵対的目的と、知覚的およびスタイル/特徴マッチング損失を併用して学習する。

実験結果

リサーチクエスチョン

  • RQ1セマンティックレイアウトをどのように用いて、ジェネレータ内の畳み込みカーネルを条件づけ、より正確で局所的な合成を実現できるか。
  • RQ2レイアウトから空間的に変化するDepthwiseカーネルを予測することは、アフィン特徴モダュレーション法より画像品質とセマンティック整合性を改善するか。
  • RQ3意味埋め込みを持つ単一の特徴ピラミッドベースの識別器は、複数スケールのPatchGANより細部の忠実性とレイアウト整合をよりよく強制できるか。
  • RQ4CC-FPSEを用いた場合、Cityscapes、COCO-Stuff、ADE20Kで、SPADEやpix2pixHDなどの既存手法と比較して定量的にどの程度の改善が得られるか。

主な発見

DatasetmIOU/Accuracy (mIOU)mIOU/Accuracy (Accu)FIDDataset 2 mIOUDataset 2 AccuDataset 2 FIDDataset 3 mIOUDataset 3 AccuDataset 3 FID
COCO-Stuff41.670.719.2Cityscapes65.582.354.3ADE20K43.782.931.7
  • 提案手法のCC-FPSEは、Cityscapes、COCO-Stuff、ADE20Kで、指標(mIOU、精度、FID)において最先端の結果を達成した。
  • Depthwise-separableパラメータ化を用いた条件付き畳み込みブロックは、全動的フィルタより大幅に少ないパラメータで位置ごとのレイアウト制御を可能にする。
  • グローバル文脈対応のウェイト予測ネットワークと特徴ピラミッドにより、長距離の文脈を取り込んでウェイト予測が改善される。
  • 特徴ピラミッド意味埋め込み識別器は、生成画像と入力セマンティックレイアウトとの整合を改善し、質感/細部とセマンティック整合性を向上させる。
  • 人間の知覚評価では、Cityscapes、COCO-Stuff、ADE20KでCC-FPSEの方がSPADEより好ましい評価を示した。)

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。