Skip to main content
QUICK REVIEW

[論文レビュー] Unsupervised Person Image Generation with Semantic Parsing Transformation

Sijie Song, Wei Zhang|arXiv (Cornell University)|Apr 6, 2019
Generative Adversarial Networks and Image Synthesis参考文献 35被引用数 17
ひとこと要約

本稿では、ポーズガイド付き画像合成を2段階に分解する非教師あり人物画像生成フレームワークを提案する。すなわち、意味的パースングラフ変換と外観生成である。これらのコンponentsをサイクル整合性と意味的注意のあるスタイル損失を用いてエンド・トゥ・エンドで訓練することで、衣類の属性を保持し、ボディーシェイプの忠実度を向上させ、DeepFashionおよびMarket-1501において先行する非教師あり手法を上回る。特に、属性保持と構造的一致性において優れている。

ABSTRACT

In this paper, we address unsupervised pose-guided person image generation, which is known challenging due to non-rigid deformation. Unlike previous methods learning a rock-hard direct mapping between human bodies, we propose a new pathway to decompose the hard mapping into two more accessible subtasks, namely, semantic parsing transformation and appearance generation. Firstly, a semantic generative network is proposed to transform between semantic parsing maps, in order to simplify the non-rigid deformation learning. Secondly, an appearance generative network learns to synthesize semantic-aware textures. Thirdly, we demonstrate that training our framework in an end-to-end manner further refines the semantic maps and final results accordingly. Our method is generalizable to other semantic-aware person image generation tasks, eg, clothing texture transfer and controlled image manipulation. Experimental results demonstrate the superiority of our method on DeepFashion and Market-1501 datasets, especially in keeping the clothing attributes and better body shapes.

研究の動機と目的

  • ペairedな訓練データが存在しない非教師あり、ポーズガイド付き人物画像生成の課題に取り組む。
  • 非剛性の人体変形をモデル化する難しさと、画像合成における衣類属性の保持の課題を克服する。
  • 直接的な画像間マッピングの複雑さを軽減するため、画像生成を意味的パースングラフ変換と外観生成に分解する。
  • 衣類テクスチャ転送や制御可能な画像操作といった下流タスクへの一般化を可能にする。
  • エンド・トゥ・エンド訓練を通じて意味的マップ予測の品質を向上させ、パースングラフと最終的な画像出力をともに精緻化する。

提案手法

  • フレームワークは人物画像生成を2つのモジュールに分解する:意味的パースングラフ変換と外観生成。
  • 意味的生成ネットワークは、ソースとターゲットのパースングラフマップ間でポーズ条件付き変換を実行し、非剛性変形の学習を簡略化する。
  • 外観生成ネットワークは、意味的注意のあるスタイル損失を用いて、変換されたパースングラフマップ上にリアルなテクスチャを合成する。
  • 疑似ラベルとサイクル整合性を用いて、ペairedな監視なしに意味的ジェネレータを訓練する。
  • 意味的注意のあるスタイル損失により、テクスチャマッピングが意味的領域を尊重し、スリーブ長や生地のパターンといった属性を保持する。
  • エンド・トゥ・エンド訓練により、両モジュールを同時に最適化し、予測された意味的マップの精緻化と画像品質の向上を実現する。

実験結果

リサーチクエスチョン

  • RQ1複雑な画像間マッピングを意味的パースングラフ変換と外観合成に分離することで、非教師あり人物画像生成を改善できるか?
  • RQ2意味的パースングラフ変換は、画像生成における非剛性人体変形のモデル化の難易度をどのように軽減できるか?
  • RQ3ペairedな監視が存在しない状況下で、エンド・トゥ・エンド訓練が意味的マップ予測をどの程度精緻化し、最終的な画像品質を向上させられるか?
  • RQ4提案されたフレームワークは、衣類テクスチャ転送やレイアウト制御画像操作といった他の条件付き画像生成タスクに一般化可能か?
  • RQ5意味的注意のあるスタイル損失は、外観生成過程における衣類属性の保持にどのような役割を果たすか?

主な発見

  • エンド・トゥ・エンド訓練戦略は意味的マップ予測を顕著に改善し、2段階訓練と比較してボディーシェイプと衣類属性の保持が顕著に向上した。
  • DeepFashionデータセットでは、エンド・トゥ・エンドモデルは真値パースングラフマップを用いた2段階ベースラインと同等の性能を達成した。
  • Market-1501データセットでは、エンド・トゥ・エンドモデルが真値パースングラフマップを用いた2段階ベースラインでさえも上回った。これは、低解像度のパースングラフエラーをより効果的に処理できたためである。
  • 意味的注意のあるスタイル損失は、細部まで衣類属性を保持するために不可欠である。マスクスタイル損失やパッチスタイル損失に置き換えると、輪郭の歪みやアーチファクトが生じる。
  • 顔生成に対する adversarial 損失は、生成画像のリアリズムを効果的に向上させ、全体的な視覚的品質を向上させた。
  • 外観生成ネットワークは、意味的マップの変更により、成功裏に衣類テクスチャ転送と制御可能な画像操作を実現し、フレームワークの多様性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。