[論文レビュー] Deep Image Spatial Transformation for Person Image Generation
本稿では、ポーズガイドド・ペルソン・イメージ生成のためのグローバルフロー・ローカルアテンションフレームワークを提案する。このフレームワークは、特徴量レベルでの微分可能でコンテンツに適応した特徴変形を可能にする。グローバルフロー推定とローカルアテンションに基づくサンプリングを組み合わせることで、ベースラインおよび既存のフローベースの手法と比較して、優れた細部の保持と構造的正確性を達成する。
Pose-guided person image generation is to transform a source person image to a target pose. This task requires spatial manipulations of source data. However, Convolutional Neural Networks are limited by the lack of ability to spatially transform the inputs. In this paper, we propose a differentiable global-flow local-attention framework to reassemble the inputs at the feature level. Specifically, our model first calculates the global correlations between sources and targets to predict flow fields. Then, the flowed local patch pairs are extracted from the feature maps to calculate the local attention coefficients. Finally, we warp the source features using a content-aware sampling method with the obtained local attention coefficients. The results of both subjective and objective experiments demonstrate the superiority of our model. Besides, additional results in video animation and view synthesis show that our model is applicable to other tasks requiring spatial transformation. Our source code is available at https://github.com/RenYurui/Global-Flow-Local-Attention.
研究の動機と目的
- 人物画像生成における特徴量レベルの空間変換における不安定性と劣化する勾配伝播を解消すること。
- 畳み込みニューラルネットワーク(CNN)の空間再構成における制限および空間変換ネットワーク(Spatial Transformer Networks)におけるアフィン変換の硬直性を克服すること。
- ポーズ転送中に微細なテクスチャを保持する、正確でコンテンツに適応した特徴量サンプリングを可能にすること。
- 提案されたモジュールが、ビュー合成や動画アニメーションなどの他の空間変換タスクへも一般化可能であることを示すこと。
提案手法
- モデルは、ソースポーズとターゲットポーズ間のグローバル相関を計算し、空間変換用の2次元フローフィールドを予測するグローバルフローフィールド推定器を使用する。
- ローカルニューラルテクスチャレンダラは、予測されたフローフィールドに基づいて特徴マップから局所的パッチペアを抽出し、局所的アテンション係数を計算する。
- 微分可能で適応可能な受容 field を用いたコンテンツに適応したサンプリングにより、特徴再構成の向上とアーティファクトの低減が図られる。
- 学習されたアテンションウェイトを用いた双線形に類似したサンプリング操作により、ソース特徴量が変形され、安定なバックプロパゲーションが可能になる。
- フレームワークはグローバルフロー推定とローカル特徴選択を分離することで、特徴量とフローフィールドの相互制約を軽減する。
- アイデンティティと現実性を保持するため、知覚的損失および adversarial 損失を用いてエンドツーエンドでモデルを訓練する。
実験結果
リサーチクエスチョン
- RQ1微分可能でグローバルフローに基づく手法は、人物画像生成における特徴量レベルの空間変換の安定性を向上させることができるか?
- RQ2固定またはグローバルアテンションと比較して、コンテンツに適応したローカルアテンションサンプリングは、テクスチャの細部をどれほど効果的に保持できるか?
- RQ3提案されたフレームワークは、ベースラインおよびフローベースのベースラインと比較して、どれほどアーティファクトを低減し、性能を向上させるか?
- RQ4グローバルフロー・ローカルアテンションモジュールは、人物画像生成を越えて、他の空間変換タスクへ一般化可能か?
主な発見
- 提案されたグローバルフロー・ローカルアテンションフレームワークは、主観的および客観的評価の両方において、ベースラインモデルおよび既存のフローベースの手法を上回る性能を示した。
- アブレーションスタディの結果、可変受容 field を用いたコンテンツに適応したサンプリングは、固定サンプリングやグローバルアテンションと比較して、アーティファクトを低減し、テクスチャ忠実度を向上させることを確認した。
- モデルは、ポーズ転送中に衣類の模様や皮膚の質感といった微細なディテールを保持した、高品質で現実的な結果を生成した。
- 本手法は、ビュー合成および画像アニメーションタスクへも良好に一般化され、妥当な新規ビューと動きの一貫性を持つ現実的な動画シーケンスを生成した。
- アテンションマップの可視化結果から、モデルが関連する局所的ソースパッチに注目する能力を学習していることが示された。これにより、不要な特徴を回避し、サンプリングの正確性が向上した。
- 外見フローおよび Bi-Sample ベースラインと比較して、特にオクルージョンや大きなポーズ変化の処理において、本モデルが優れた性能を発揮した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。