[論文レビュー] Soft-Gated Warping-GAN for Pose-Guided Person Image Synthesis
本稿では、ターゲットポーズからパーツセグメンテーションマップを最初に生成し、その後、ソース画像の特徴をターゲットレイアウトに転送するためにソフトゲーテッドワーピングブロックを用いる、ポーズガイドド・ペルソナ画像合成のためのSoft-Gated Warping-GANを提案する。この手法は、顕著に向上した現実性とアーティファクトの低減を実現し、特に大きなポーズ変化下でも優れた性能を示す。
Despite remarkable advances in image synthesis research, existing works often fail in manipulating images under the context of large geometric transformations. Synthesizing person images conditioned on arbitrary poses is one of the most representative examples where the generation quality largely relies on the capability of identifying and modeling arbitrary transformations on different body parts. Current generative models are often built on local convolutions and overlook the key challenges (e.g. heavy occlusions, different views or dramatic appearance changes) when distinct geometric changes happen for each part, caused by arbitrary pose manipulations. This paper aims to resolve these challenges induced by geometric variability and spatial displacements via a new Soft-Gated Warping Generative Adversarial Network (Warping-GAN), which is composed of two stages: 1) it first synthesizes a target part segmentation map given a target pose, which depicts the region-level spatial layouts for guiding image synthesis with higher-level structure constraints; 2) the Warping-GAN equipped with a soft-gated warping-block learns feature-level mapping to render textures from the original image into the generated segmentation map. Warping-GAN is capable of controlling different transformation degrees given distinct target poses. Moreover, the proposed warping-block is light-weight and flexible enough to be injected into any networks. Human perceptual studies and quantitative evaluations demonstrate the superiority of our Warping-GAN that significantly outperforms all existing methods on two large datasets.
研究の動機と目的
- 任意のポーズ変更下における大きな空間的不一致と幾何的変動の課題に対処すること。
- 局所的畳み込みに依存する既存のモデルが、大きなポーズ変化下でパーツレベルの構造的整合性を捉えきれないという限界を克服すること。
- ターゲットポーズに従ってガイドされるパーツセグメンテーションマップを通じて、ハイレベルな構造的制約を組み込むことで、画像品質を向上させること。
- ポーズの差に応じて変換度合いを適応的に変更できる、軽量で柔軟なワーピング機構を開発すること。
- 特に極端なポーズ変化下でも、より現実的でアーティファクトのない人物画像生成を達成すること。
提案手法
- 与えられたターゲットポーズからターゲットパーツセグメンテーションマップを生成するポーズガイドド・パーサーを採用し、画像合成に向けたハイレベルな構造的ガイダンスを提供する。
- ソース画像からターゲットセグメンテーションマップへの幾何的特徴マッピングを学習するソフトゲーテッドワーピングブロックを用いたSoft-Gated Warping-GANを設計する。
- ソース特徴マップとターゲット特徴マップ間の変換パラメータを推定するための軽量な幾何マッチャーを導入する。
- ソースとターゲットポーズの類似度に基づいて、ワーピングの度合いを動的に制御するソフトゲーティング関数を採用する—ポーズの差が大きいほど高い値、小さいほど低い値をとる。
- ワーピング中に有効な特徴マップに集中できるように、ワーピングブロック内にアテンション機構を統合する。
- 生成の現実性と構造的忠実性を向上させるために、敵対的損失、知覚的損失、L1損失、セグメンテーション整合性損失を含むマルチコンポonent損失関数を用いてモデルを訓練する。
実験結果
リサーチクエスチョン
- RQ1ポーズガイドド・パーサーを用いることで、大きなポーズ変化下でも人物画像合成における構造的整合性が向上するか?
- RQ2ソフトゲーテッドワーピングブロックは、任意のポーズでの画像合成において、特徴レベルの整合性をどのように向上させ、アーティファクトを低減するか?
- RQ3本手法は、既存のGANベースのモデルと比較して、現実性と構造的正確性の面でどの程度優れているか?
- RQ4パーツレベルのセグメンテーションマップの統合により、テクスチャレンダリングと境界保存の制御性が向上するか?
- RQ5ソフトゲーティング機構は、ポーズの差に応じて変換強度を適応的に調整するのにどの程度効果的か?
主な発見
- 本手法は、DeepFashionおよびMarket-1501の両データセットにおいて、定量的指標および人間の知覚評価の両面で、最先端の手法を顕著に上回った。
- MTurkを用いた人間の知覚評価では、DeepFashionデータセットにおいて96.3%の作業者が本手法の結果をBodyROI7の結果よりも好むと回答した。
- アブレーションスタディの結果、ソフトゲーテッドワーピングブロックを削除すると性能が著しく低下し、特徴マッピングと現実性向上におけるその重要性が裏付けられた。
- ポーズガイドド・パーサーの導入により、パーツセグメンテーションマップを通じたハイレベルな構造的制約が提供され、生成品質が顕著に向上した。
- 損失関数の各コンponent(敵対的、知覚的、L1、セグメンテーション)が最終的な結果に有意義に寄与しており、4つの損失を併用した場合に最も優れた性能が得られた。
- 定性的な結果から、本手法は、特に重いオクルージョンや大きなポーズ変化が生じる領域においても、よりシャープで詳細性に富み、より自然な人物画像を生成し、アーティファクトを低減していることが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。