Skip to main content
QUICK REVIEW

[論文レビュー] Masked Based Unsupervised Content Transfer

Ron Mokady, Sagie Benaim|arXiv (Cornell University)|Apr 30, 2020
Generative Adversarial Networks and Image Synthesis参考文献 43被引用数 2
ひとこと要約

本稿では、生成されたマスクを用いて共通コンテンツとドメイン固有コンテンツを分離することで、関連する画像領域にのみ注目することにより、高品質で多様な翻訳を実現する、マスク付きの教師なしコンテンツ転送手法を提案する。この手法は、コンテンツ転送で最先端の結果を達成し、クラスラベルのみを用いた弱教師ありセマンティックセグメンテーションを可能にする。

ABSTRACT

We consider the problem of translating, in an unsupervised manner, between two domains where one contains some additional information compared to the other. The proposed method disentangles the common and separate parts of these domains and, through the generation of a mask, focuses the attention of the underlying network to the desired augmentation alone, without wastefully reconstructing the entire target. This enables state-of-the-art quality and variety of content translation, as demonstrated through extensive quantitative and qualitative evaluation. Our method is also capable of adding the separate content of different guide images and domains as well as remove existing separate content. Furthermore, our method enables weakly-supervised semantic segmentation of the separate part of each domain, where only class labels are provided. Our code is available anonymously at http://bit.ly/2mXTizX.

研究の動機と目的

  • 一方のドメインに他方には存在しない追加情報が含まれるドメイン間での教師なし画像翻訳を解決すること。
  • ペairedデータが存在しない状況でも、共通コンテンツとドメイン固有コンテンツを教師なしで分離すること。
  • 生成されたマスクを用いてネットワークの注目を関連する画像領域に集中させることで、翻訳の品質と多様性を向上させること。
  • ガイド画像や異なるドメインから独立したコンテンツの追加または削除を可能にすること。
  • クラスレベルのアノテーションのみを用いて、ドメイン固有部分の弱教師ありセマンティックセグメンテーションを実行すること。

提案手法

  • この手法は、ターゲット画像内のドメイン固有コンテンツを特定・分離するためのマスク生成ネットワークを用いる。
  • ドメイン間で共有される共通コンテンツと、それぞれのドメイン固有のコンテンツを分離する。
  • ネットワークはマスクされた領域に注目して生成処理を行うため、全画像の再構築を繰り返し行うのを回避する。
  • アイデンティティの保持と現実的な翻訳を保証するために、サイクル整合性のある敵対的フレームワークを採用する。
  • マスクは、敵対的損失と再構築損失を用いて、翻訳ネットワークとエンドツーエンドで学習される。
  • 異なるガイド画像からのマスクを組み合わせることで、ゼロショットコンテンツ転送を実現する。

実験結果

リサーチクエスチョン

  • RQ1学習されたマスクを用いてネットワークの注目をドメイン固有の関連領域に集中させることで、教師なし画像翻訳の性能を向上させることができるか?
  • RQ2ペairedデータが存在しない状況下で、この手法は共通コンテンツと別個コンテンツをどの程度効果的に分離できるか?
  • RQ3複数のガイド画像からのマスクを組み合わせることで、この手法はコンテンツを転送できるか?
  • RQ4この手法は、クラスラベルのみを用いて、どの程度の弱教師ありセマンティックセグメンテーションを実行できるか?
  • RQ5マスクベースの注目メカニズムは、ベースライン手法と比較して、生成画像の品質と多様性を顕著に向上させるか?

主な発見

  • 提案手法は、定量的指標とコンテンツ転送の定性的な多様性の両面で、最先端の性能を達成した。
  • この手法は、それぞれのガイド画像からのマスクを組み合わせることで、異なるガイド画像からの別個コンテンツの追加を可能にした。
  • マスクの操作により、画像内の既存の別個コンテンツの削除もサポートした。
  • この手法は、クラスレベルのラベルのみを用いて、ドメイン固有部分の弱教師ありセマンティックセグメンテーションを実行した。
  • 広範な評価により、マスクベースの注目メカニズムが、共有領域の不要な再構築を低減させることで翻訳品質を顕著に向上させることを確認した。
  • このアプローチは、ペairedデータが存在しない状況でも、多様なドメインや画像タイプに強く一般化できることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。