QUICK REVIEW

[論文レビュー] You Only Need Adversarial Supervision for Semantic Image Synthesis

Vadim Sushko, Edgar Schönfeld|arXiv (Cornell University)|Dec 8, 2020

Generative Adversarial Networks and Image Synthesis参考文献 55被引用数 70

ひとこと要約

OASISは、分割ベースの識別器と3Dノイズ駆動のジェネレータを導入し、対向的監視だけを用いて高品質かつ多様なセマンティック画像合成を実現し、パーセプチュアル損失を排除する。

ABSTRACT

Despite their recent successes, GAN models for semantic image synthesis still suffer from poor image quality when trained with only adversarial supervision. Historically, additionally employing the VGG-based perceptual loss has helped to overcome this issue, significantly improving the synthesis quality, but at the same time limiting the progress of GAN models for semantic image synthesis. In this work, we propose a novel, simplified GAN model, which needs only adversarial supervision to achieve high quality results. We re-design the discriminator as a semantic segmentation network, directly using the given semantic label maps as the ground truth for training. By providing stronger supervision to the discriminator as well as to the generator through spatially- and semantically-aware discriminator feedback, we are able to synthesize images of higher fidelity with better alignment to their input label maps, making the use of the perceptual loss superfluous. Moreover, we enable high-quality multi-modal image synthesis through global and local sampling of a 3D noise tensor injected into the generator, which allows complete or partial image change. We show that images synthesized by our model are more diverse and follow the color and texture distributions of real images more closely. We achieve an average improvement of $6$ FID and $5$ mIoU points over the state of the art across different datasets using only adversarial supervision.

研究の動機と目的

セマンティック画像合成におけるパーセプトual lossの排除を、識別器のフィードバック強化で実現する動機付け。
識別器がピクセルレベルでクラス認識を活用した監視を行えるような設計をする。
全レイヤーに3Dノイズを注入して多モード出力を可能にするジェネレータを設計する。
ADE20K、Cityscapes、COCO-stuffで最先端手法と比較して画像品質と多様性を向上させる。

提案手法

識別器をセマンティックセグメンテーションネットワーク（N+1クラス：N個の実セマンティッククラス+1つの偽クラス）として、クラスバランスのため逆頻度重み付けを用いて再設計する。
LabelMix正則化を導入し、識別器がセマンティックおよび構造的差異に焦点を合わせるよう促し、ラベル誘導ミックス下での一貫性を強制する。
ジェネレータの訓練を、分割ベースの識別器を用いた敵対的損失へ置換する。
3Dノイズテンソルをジェネレータの全層へ注入することで、全体的および局所的（セグメントごと/画素ごと）変動を可能にし、多モード合成を実現する。
軽量化のため初期の残差ブロックを削除し、ジェネレータを72Mパラメータにする。
識別器の有効性を検証するため、ラベルマップエンコーディング戦略を比較し、 perceptual loss なしでの構成選択をアブレーションする。

実験結果

リサーチクエスチョン

RQ1セグメンテーションベースの識別器は、従来のマルチスケール識別器よりも強力で意味理解に基づくフィードバックをジェネレータに提供できるのか？
RQ2ディスクリミネータが意味理解に基づく監視を提供する場合、セマンティック画像合成においてパーセプショナル（VGG）損失は必要か？
RQ33Dノイズベースの多モード合成は、画像品質を損なうことなく多様性を向上させるのか？
RQ4LabelMix正則化は生成画像の現実感とセマンティック整合性にどのような影響を与えるのか？

主な発見

OASISはADE20K、Cityscapes、COCO-stuffで最先端の結果を達成し、対向的監視のみを用いて従来方法より平均6ポイントのFID改善と5ポイントのmIoU改善を達成した。
分割ベースの識別器（N+1クラス）はピクセルごとに意味的に認識されたフィードバックを提供し、VGGのようなパーセプト損失の必要性を置換する。
3Dノイズ駆動の多モード合成はグローバルおよび局所的な外観変化を可能にし、多様性を高めつつ意味的整合性を維持する。
アブレーションではSPADE+をOASIS識別器へ置換すると大きなFID/mIoUの向上を示し、3Dノイズを追加すると多様性が増す。一方、パーセプト損失はより良い識別器が得られる場合に限り多様性に影響を与え、FIDを時に低下させ得る。
LabelMix正則化はセマンティック境界と内容差異を尊重するよう識別器に促すことで画素レベルの現実感を改善する。
SPADE+と比較して、 perceptual lossなしのOASISはFIDとmIoUの双方でより良い結果を示し、識別器主導の強い監視を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。