QUICK REVIEW

[論文レビュー] Semantic Image Synthesis with Spatially-Adaptive Normalization

Taesung Park, Ming-Yu Liu|arXiv (Cornell University)|Mar 18, 2019

Generative Adversarial Networks and Image Synthesis参考文献 57被引用数 261

ひとこと要約

tldr: SPADEを導入する、空間的適応正規化レイヤーで、入力の意味レイアウトで活性化を調節し、意味情報を保持し、高忠実度でレイアウト一貫性のある画像合成をマルチモーダルおよびスタイルガイド付きで可能にする。

ABSTRACT

We propose spatially-adaptive normalization, a simple but effective layer for synthesizing photorealistic images given an input semantic layout. Previous methods directly feed the semantic layout as input to the deep network, which is then processed through stacks of convolution, normalization, and nonlinearity layers. We show that this is suboptimal as the normalization layers tend to ``wash away'' semantic information. To address the issue, we propose using the input layout for modulating the activations in normalization layers through a spatially-adaptive, learned transformation. Experiments on several challenging datasets demonstrate the advantage of the proposed method over existing approaches, regarding both visual fidelity and alignment with input layouts. Finally, our model allows user control over both semantic and style. Code is available at https://github.com/NVlabs/SPADE .

研究の動機と目的

条件付き画像合成における正規化時に意味情報を保存することを動機付ける。
セマンティック・レイアウトを用いて空間的に活性を変調する正規化レイヤーを開発する。
SPADEを用いた意味伝搬のために、前提となる重いエンコーダ-デコーダを持たないコンパクトなジェネレータを構築する。
ノイズやスタイル画像で制御されたマルチモーダルおよびスタイルガイド付きの画像合成を実証する。
先端手法に対する改善を示すため、難易度の高いデータセットで評価する。

提案手法

SPADEを定義する：意味マスク m に条件付けられた、学習済みの空間的に変化するアフィン変換（gamma, beta）。
畳み込みの後の従来の正規化をSPADEに置換し、層全体で入力の意味を保存する。
ResNetブロックとアップサンプリングを用いた軽量ジェネレータを使用し、すべての正規化層をSPADEで変調する。
マルチスケール判別器と pix2pixHD に似た損失で学習し、最小二乗法の代わりにヘインジ損失を用いる。
入力としてランダムベクターを与えることでマルチモーダル合成を可能にし、同じ意味レイアウトに対して多様な出力を実現する。
スタイルを導くために画像エンコーダをオプションで組み込み、スタイル制御生成を可能にする。

実験結果

リサーチクエスチョン

RQ1空間適応的モジュレーションは、無条件またはグローバル条件付け正規化よりも意味情報をより良く保存するか？
RQ2SPADEベースのジェネレータは、従来手法より多様なデータセット（COCO-Stuff、ADE20K、Cityscapes）で視覚的忠実度と意味的整合性を高く達成できるか？
RQ3SPADEはリアリズムや意味精度を犠牲にすることなく、マルチモーダルおよびスタイル指向の合成をサポートするか？
RQ4提案手法は、標準指標でpix2pixHD、CRN、SIMSなどの強力なベースラインと比較してどのように性能を示すか。
RQ5SPADEの性能に影響を与えるアーキテクチャ的およびアブレーション的な選択肢（カーネルサイズ、入力タイプ、正規化の変種）とは何か？

主な発見

Method	COCO-Stuff_mIoU	COCO-Stuff_精度	COCO-Stuff_FID	ADE20K_mIoU	ADE20K_精度	ADE20K_FID	ADE20K-outdoor_mIoU	ADE20K-outdoor_精度	ADE20K-outdoor_FID	Cityscapes_mIoU	Cityscapes_精度	Cityscapes_FID
CRN [6]	23.7	40.4	70.4	22.4	68.8	73.3	16.5	68.6	99.0	52.4	77.1	104.7
pix2pixHD [48]	14.6	45.8	111.5	20.3	69.2	81.8	17.4	71.6	97.8	58.3	81.4	95.0
Ours	37.4	67.9	22.6	38.5	79.9	33.9	30.8	82.9	63.3	62.3	81.9	71.8

SPADEベースのジェネレータは、COCO-Stuff、ADE20K、ADE20K-outdoor、Cityscapes で従来手法に比べて mIoU とピクセル精度を顕著に向上させる。
COCO-Stuff では、mIoU が 37.4（CRN の 23.7 から）に向上し、FID は 22.6、忠実度と意味合わせの向上を示す。
ADE20K では、mIoU が 38.5（CRN の 22.4 から）に向上し、FID は 33.9、屋外および複雑なシーンで強力な利得を示す。
Cityscapes では、mIoU が 62.3、FID が 71.8 となり、競合手法を上回る。
定性的な結果は、よりリアルな質感と欠陥の減少を示し、データセットを跨いで SPADE 生成画像へのユーザーの強い嗜好を示す。
このフレームワークは、レイアウト忠実度を維持しつつ、マルチモーダル出力とスタイルガイド合成をサポートする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。