QUICK REVIEW

[論文レビュー] Generative Semantic Manipulation with Contrasting GAN

Xiaodan Liang, Hao Zhang|arXiv (Cornell University)|Aug 1, 2017

Generative Adversarial Networks and Image Synthesis被引用数 27

ひとこと要約

本稿では、生成的セマンティック操作を可能にする対照的 GAN（contrast-GAN）を提案する。この手法により、猫→犬やモーターサイクル→自転車といった大規模なセマンティック変更を、オブジェクトの形状や視点を保持したまま実現できる。生成画像が入力画像よりも実際のターゲットクラス画像に近くなるように、特徴空間における相対的距離を最適化することで、ImageNet および MSCOCO データセットにおいて、先行する GAN よりも優れた視覚的正確性とセマンティック正確性を達成する。

ABSTRACT

Generative Adversarial Networks (GANs) have recently achieved significant improvement on paired/unpaired image-to-image translation, such as photo$ ightarrow$ sketch and artist painting style transfer. However, existing models can only be capable of transferring the low-level information (e.g. color or texture changes), but fail to edit high-level semantic meanings (e.g., geometric structure or content) of objects. On the other hand, while some researches can synthesize compelling real-world images given a class label or caption, they cannot condition on arbitrary shapes or structures, which largely limits their application scenarios and interpretive capability of model results. In this work, we focus on a more challenging semantic manipulation task, which aims to modify the semantic meaning of an object while preserving its own characteristics (e.g. viewpoints and shapes), such as cow$ ightarrow$sheep, motor$ ightarrow$ bicycle, cat$ ightarrow$dog. To tackle such large semantic changes, we introduce a contrasting GAN (contrast-GAN) with a novel adversarial contrasting objective. Instead of directly making the synthesized samples close to target data as previous GANs did, our adversarial contrasting objective optimizes over the distance comparisons between samples, that is, enforcing the manipulated data be semantically closer to the real data with target category than the input data. Equipped with the new contrasting objective, a novel mask-conditional contrast-GAN architecture is proposed to enable disentangle image background with object semantic changes. Experiments on several semantic manipulation tasks on ImageNet and MSCOCO dataset show considerable performance gain by our contrast-GAN over other conditional GANs. Quantitative results further demonstrate the superiority of our model on generating manipulated results with high visual fidelity and reasonable object semantics.

研究の動機と目的

オブジェクトの幾何学的形状や視点を保持しつつ、大規模なセマンティック変更（例：猫→犬）を実行できる制御可能な画像生成を実現すること。
従来の GAN が色やテクスチャといった低レベル特徴の変更しか行えないという制限を克服すること。
固定ラベルやキャプションではなく、複雑で構造的な条件（例：オブジェクトマスク）を用いる条件付き画像生成手法を開発すること。
マスク条件付きアーキテクチャを用いて、背景とオブジェクトレベルのセマンティック操作を分離すること。
相対的特徴距離の学習を通じて、非教師あり画像生成における解釈可能性と制御性を向上させること。

提案手法

生成サンプル、入力画像、実際のターゲットクラス画像の間の特徴空間における距離の相対的比較に基づく、新しい敵対的対照的目的関数を提案する。
すべてのセマンティッククラスに共通して使用する条件付き生成器を採用し、ターゲットカテゴリとオブジェクトマスクを入力として、局所的な操作を可能にする。
複数のセマンティックに敏感な識別器を用いて、生成画像が入力画像よりも実際のターゲットクラス画像にセマンティック的に近くなるように制約を課す。
全体的な画像の現実性を検証するためのグローバル識別器 $D_I$ を導入し、対照的損失を補完する。
対照的損失に LSGAN 損失とサイクル整合性損失を組み合わせることで、学習の安定化と視覚的品質の向上を図る。
マスク条件付きアーキテクチャを用いて、背景や空間的文脈を保持したまま、特定のオブジェクトインスタンスのみを操作可能にする。

実験結果

リサーチクエスチョン

RQ1GAN を用いたモデルは、オブジェクトの形状や視点を保持しつつ、大規模なセマンティック変更（例：猫→犬）を実行できるか？
RQ2特徴空間における相対的距離の比較に基づく敵対的対照的目的関数は、標準的な GAN 目的関数に比べてセマンティック操作を向上させるか？
RQ3ラベルとオブジェクトマスクで条件付けられた単一の共有生成器は、各クラスごとに別々の生成器を用いるよりも優れた性能を発揮するか？
RQ4本手法は、非ペaired 画像間変換およびセマンティック操作タスクにおいて、CycleGAN や他の GAN と比較してどのように異なるか？
RQ5マスク条件付きの条件付けは、背景とオブジェクトレベルのセマンティック変化をどの程度分離可能か？

主な発見

contrast-GAN モデルは、MSCOCO における猫↔犬や自転車↔オートバイといったセマンティック操作タスクにおいて、ベースライン GAN、特に CycleGAN や他の条件付き GAN より顕著に優れた性能を示す。
AMT 感覚的リアリズムベンチマークにおいて、本モデルはベースラインより顕著に高いスコアを達成しており、特に大規模なセマンティック変更を要するタスクで顕著である。
アブレーションスタディの結果、対照的損失、LSGAN 損失、サイクル整合性損失の3つの要素が最適な性能を発揮するために不可欠であることが確認された。
マスク条件付きの共有生成器は、各クラスごとの別個生成器と同等またはそれ以上の性能を発揮し、モデルサイズの削減と耐障害性の向上を実現した。
補助的なグローバル識別器 $D_I$ を備えたモデルは、視覚的正確性がさらに向上しており、そのリアルさ評価における補完的役割が示された。
定性的な結果から、本モデルはオブジェクト構造やテクスチャに対して最小限ながら効果的な変更を加えており、元の視点や背景との相互作用を保持したまま、セマンティック的アイデンティティを効果的に変換していることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。