Skip to main content
QUICK REVIEW

[論文レビュー] InstaGAN: Instance-aware Image-to-Image Translation

Sangwoo Mo, Minsu Cho|arXiv (Cornell University)|Dec 28, 2018
Generative Adversarial Networks and Image Synthesis参考文献 44被引用数 99
ひとこと要約

InstaGAN は、インスタンス分割マスクを用いて、文脈を保持する損失と逐次的ミニバッチ学習を伴う、監視なしのマルチインスタンス画像変換を実行します。

ABSTRACT

Unsupervised image-to-image translation has gained considerable attention due to the recent impressive progress based on generative adversarial networks (GANs). However, previous methods often fail in challenging cases, in particular, when an image has multiple target instances and a translation task involves significant changes in shape, e.g., translating pants to skirts in fashion images. To tackle the issues, we propose a novel method, coined instance-aware GAN (InstaGAN), that incorporates the instance information (e.g., object segmentation masks) and improves multi-instance transfiguration. The proposed method translates both an image and the corresponding set of instance attributes while maintaining the permutation invariance property of the instances. To this end, we introduce a context preserving loss that encourages the network to learn the identity function outside of target instances. We also propose a sequential mini-batch inference/training technique that handles multiple instances with a limited GPU memory and enhances the network to generalize better for multiple instances. Our comparative evaluation demonstrates the effectiveness of the proposed method on different image datasets, in particular, in the aforementioned challenging cases. Code and results are available in https://github.com/sangwoomo/instagan

研究の動機と目的

  • 画像-画像翻訳を、複数のターゲットインスタンスと大きな形状変化を扱えるよう動機づける。
  • インスタンス情報(セグメンテーションマスク)を取り入れて、変換の忠実度を向上させる。
  • 対応する属性を翻訳する際に、インスタンスの順序の置換不変性を確保する。
  • ターゲットインスタンスを変換しつつ背景の文脈を保持する。
  • 限られたGPUメモリの下で、多数のインスタンスを用いた学習と推論を可能にする。

提案手法

  • インスタンス属性の集合を含む画像と対応するセットを翻訳し、インスタンス順序に対して置換不変であるアーキテクチャを提案する。
  • 属性の集合が置換不変な演算(例:総和)によって結合された共同特徴表現で、画像とインスタンス属性をエンコードする。
  • サイクル整合性ベースのGANフレームワークを用いて、ドメイン間の双方向マッピング(XYとYX)を学習する。
  • ターゲットインスタンスを変換し背景内容を保持することを強調する文脈保持損失を導入する。
  • 多数のインスタンスを限られたGPUメモリで扱うための逐次ミニバッチ翻訳技術を開発し、中間サンプルを介したデータ拡張を提供する。

実験結果

リサーチクエスチョン

  • RQ1インスタンスレベルの情報(例:セグメンテーションマスク)を、複数のインスタンスと形状変化を扱うための無監視の画像-画像翻訳にどのように組み込めるか。
  • RQ2文脈保持損失は、マルチインスタンスシナリオにおける背景忠実度とインスタンス変換品質を向上させるか。
  • RQ3逐次ミニバッチ翻訳は、メモリ制約下で多数のインスタンスを用いた学習と推論を可能にしつつ、置換不変性を保持できるか。

主な発見

  • CCP、MHP、COCOデータセットを横断したマルチインスタンス変換タスクでCycleGANより高性能を示す。
  • 形状認識に基づく翻訳をより良く行い、インスタンスのレイアウトと視点を保つ。
  • 文脈保持損失は、背景の保持を超えて背景保全と翻訳品質を向上させる。
  • 逐次ミニバッチ翻訳は多数のインスタンスでの学習を可能にし、一般化を改善するデータ拡張として機能する。
  • この手法は、入力マスクを条件として、翻訳するインスタンスを制御することを可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。