QUICK REVIEW

[論文レビュー] High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs

Ting-Chun Wang, Ming-Yu Liu|arXiv (Cornell University)|Nov 30, 2017

Generative Adversarial Networks and Image Synthesis被引用数 300

ひとこと要約

本論文は、セマンティックラベルマップから2048×1024のフォトリアリスティックな画像を生成する条件付きGANフレームワークを開発し、 coarse-to-fine generator、マルチスケール discriminators、そしてオプションの知覚的および特徴マッチング損失を伴う敵対的目的を用いる。さらに、インスタンス認識に基づく操作と対話的編集の多様な出力を可能にする。

ABSTRACT

We present a new method for synthesizing high-resolution photo-realistic images from semantic label maps using conditional generative adversarial networks (conditional GANs). Conditional GANs have enabled a variety of applications, but the results are often limited to low-resolution and still far from realistic. In this work, we generate 2048x1024 visually appealing results with a novel adversarial loss, as well as new multi-scale generator and discriminator architectures. Furthermore, we extend our framework to interactive visual manipulation with two additional features. First, we incorporate object instance segmentation information, which enables object manipulations such as removing/adding objects and changing the object category. Second, we propose a method to generate diverse results given the same input, allowing users to edit the object appearance interactively. Human opinion studies demonstrate that our method significantly outperforms existing methods, advancing both the quality and the resolution of deep image synthesis and editing.

研究の動機と目的

セマンティックラベルマップからの高解像度でフォトリアリスティックな画像合成を、従来の低解像度の結果を超えて動機づける。
粗-細のジェネレータとマルチスケール discriminators を備えた堅牢な条件付きGANフレームワークを開発し、2048×1024 出力を実現する。
インスタンスレベルのセグメンテーション情報を取り入れ、物体の追加/削除やカテゴリ変更などのオブジェクトレベルの操作を可能にする。
インスタンスレベルの特徴埋め込みを学習し、それをクラスタリングして制御可能な変化を提供することで、多様で対話的な画像生成を実現する。

提案手法

グローバルネットワークを 1024×512、ローカルエンハンサーネットワークを用いて2048×1024へアップサンプリングする粗-細ジェネレータを使用する。
異なる画像スケールで動作する3つのマルチスケールディスcriminatorを採用し、グローバルな整合性と細かな質感のディテールを導く。
ディスクリミネータ特徴マッチング損失を導入して訓練を安定化させ、スケール間で自然な統計を促進する。
入力にインスタンス境界情報を追加してインスタンスマップを組み込み、オブジェクト境界と隣接オブジェクトの分離性を向上させる。
エンコーダを通じて学習されるインスタンスレベルの特徴埋め込みとK-meansクラスタリングを追加して、各オブジェクトインスタンスの多様で制御可能な外観を実現する。

実験結果

リサーチクエスチョン

RQ1条件付きGANはセマンティックラベルマップから高解像度でフォトリアリスティックな画像を生成できるか？
RQ2粗-細ジェネレータとマルチスケールディスcriminatorは高解像度でのリアリズムとグローバル整合性を向上させるか？
RQ3インスタンスレベル情報を含めるとオブジェクト境界が改善され、対話的編集が可能になるか？
RQ4学習されたインスタンスレベルの特徴は個々のオブジェクトに対して多様で制御可能な外観変化を提供するか？

主な発見

提案手法は高解像度 (2048×1024) の画像を生成し、従来の手法と比べてリアリズムが優れている。
インスタンスレベルのセグメンテーション情報は、境界を鋭くし、隣接するオブジェクトを含むシーンのリアリズムを改善する。
マルチスケールディスcriminatorと特徴マッチング損失は訓練を安定化させ、ベースラインと比較してセマンティックセグメンテーションの評価指標を向上させる。
このアプローチは、合成画像のセマンティックセグメンテーションスコアを現実画像のそれに近づけ、ベンチマーク評価でOracleに近い性能を示す。
インスタンス特徴とラベルを操作することで対話的な物体編集と多様な出力が実現され、リアルタイムでオブジェクトの追加/削除や外観の変更が可能になる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。