QUICK REVIEW

[論文レビュー] Photographic Image Synthesis with Cascaded Refinement Networks

Qifeng Chen, Vladlen Koltun|arXiv (Cornell University)|Jul 28, 2017

Generative Adversarial Networks and Image Synthesis参考文献 46被引用数 80

ひとこと要約

本論文では Cascaded Refinement Networks (CRN) を導入し、セマンティックレイアウトからフォトリアリスティックな画像を単一の feedforward モデルで合成し、 perceptual regression loss によって訓練され、2 megapixels へスケール可能で、GAN ベースのベースラインを上回る。

ABSTRACT

We present an approach to synthesizing photographic images conditioned on semantic layouts. Given a semantic label map, our approach produces an image with photographic appearance that conforms to the input layout. The approach thus functions as a rendering engine that takes a two-dimensional semantic specification of the scene and produces a corresponding photographic image. Unlike recent and contemporaneous work, our approach does not rely on adversarial training. We show that photographic images can be synthesized from semantic layouts by a single feedforward network with appropriate structure, trained end-to-end with a direct regression objective. The presented approach scales seamlessly to high resolutions; we demonstrate this by synthesizing photographic images at 2-megapixel resolution, the full resolution of our training data. Extensive perceptual experiments on datasets of outdoor and indoor scenes demonstrate that images synthesized by the presented approach are considerably more realistic than alternative approaches. The results are shown in the supplementary video at https://youtu.be/0fhUJT21-bs

研究の動機と目的

ピクセル単位のセマンティックレイアウトに条件づけられたフォトリアリスティック画像を生成するモデルを開発する。
対立的訓練を回避し、安定したエンドツーエンド回帰アプローチを実証する。
高解像度（最大 2 MP）までの画像合成を実現し、リアリズムを保つ。
人間の知覚研究を用いて現実性を強力なベースラインと比較評価する。
特定のセマンティックレイアウトに対する出力の多様性を探る。

提案手法

CRN を提案する：4x8 レイアウトから始まる増分解像度を跨ぐ一連の refinement モジュール，
各モジュール M^i はダウンサンプルされたレイアウト L と上向きサンプリングされた F^{i-1} を取り、それらを連結してその解像度で新しい特徴マップを出力する。
3x3 コンボリューション、レイヤー正規化、Leaky ReLU を使用；最終出力は 3 色チャンネルへの 1x1 投影。
synthesized image と参照画像の VGG-19 活性化の差分に基づく perceptual (content) loss を用いてエンドツーエンド訓練を行う： L_{I,L} = sum_l lambda_l || Phi_l(I) - Phi_l(g(L;theta)) ||_1。
複数の VGG 層（conv1_2, conv2_2, conv3_2, conv4_2, conv5_2）からの特徴を用いることでマルチスケール損失を適用する。
任意で出力を k 枚の画像として多様性を促す loss を用い、各セマンティッククラスごとに最適なコンテンツを選択して出力する。

実験結果

リサーチクエスチョン

RQ1セマンティックレイアウトから GAN などの対立的学習を用いずに単一のフォワードネットワークでフォトリアリスティックな画像を再現できるか？
RQ2 cascaded, multi-resolution アーキテクチャは高解像度で高忠実度の合成を可能にするか？
RQ3 CRN は GAN ベースや他のベースラインと比較して知覚的リアリズムにおいて優れているか？
RQ4 同じセマンティックレイアウトに対して多様な出力を生成できるか？
RQ5 知覚的（content）loss が合成品質とリアリズムに及ぼす影響は？

主な発見

CRN の画像は、知覚実験においてGANベースのIsolaらを含む複数のベースラインよりも現実的と評価された。
エンドツーエンド訓練で高解像度（最大 2 megapixels）へスケールする。
事前訓練済みネットワーク（VGG-19）に基づく知覚的損失が、細部とグローバル構造の両方を合成へ導く。
多様性損失は、単一のセマンティックレイアウトに対して複数の妥当な出力を生成し、変動をセマンティッククラス間に分散させる。
時間制限付きの人間研究では、CRN が視聴の初期段階で実画像と互角のリアリズムを示す。
Cityscapes および NYU データセット全体で、CRN は対となるリアリズム判定で一貫してベースラインを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。