[論文レビュー] Pose Guided Person Image Generation
この論文はPG 2を導入する。参照画像とターゲットポーズを条件として人物画像生成を行い、ポーズ整合性のある高品質な結果を生成します。
This paper proposes the novel Pose Guided Person Generation Network (PG$^2$) that allows to synthesize person images in arbitrary poses, based on an image of that person and a novel pose. Our generation framework PG$^2$ utilizes the pose information explicitly and consists of two key stages: pose integration and image refinement. In the first stage the condition image and the target pose are fed into a U-Net-like network to generate an initial but coarse image of the person with the target pose. The second stage then refines the initial and blurry result by training a U-Net-like generator in an adversarial way. Extensive experimental results on both 128$\times$64 re-identification images and 256$\times$256 fashion photos show that our model generates high-quality person images with convincing details.
研究の動機と目的
- appearance(参照画像)とポーズ(キーポイント)という両方を条件にしたコントロール可能な画像生成タスクを動機づける。
- グローバルな体の構造と外観の細部を別々に学習する2段階アーキテクチャを開発する。
- 合成時の背景アーティファクトを減らすためのポーズ埋め込みとポーズ重視の損失を提案する。
- 低解像度の再識別データセットと高解像度のファッションデータセットで有効性を示す。
提案手法
- 二段階ネットワークを使用する(Stage I: U-Net風ジェネレータでポーズを統合し粗いターゲットを生成;Stage II: 条件付きDCGANで詳細を追加)
- Stage I ではターゲットポーズを18個のヒートマップとして表現し、条件画像と連結してStage Iの入力とする
- Stage I では背景よりも人体を強調するようポーズマスク損失をL1損失の算出時に用いる
- Stage II は I_A と Stage I の出力を条件とした差分マップ G2(I_A, Î_B1) を学習し、識別器 D は (I_A, Î_B2) と (I_A, I_B) の組を用いて動作する
- 敵対的損失とマスク付きL1項を組み合わせてシャープさとアーティファクト抑制のバランスを取って訓練する
- ポーズ埋め込み(座標ベース vs ヒートマップ)の影響と損失を比較する2段階の訓練スケジュールを用いる
実験結果
リサーチクエスチョン
- RQ1 参照外観とターゲットポーズの両方で画像生成を効果的に条件付けするにはどうすればよいか?
- RQ2 グローバルな構造学習と高周波の外観ディテールを分離する2段階フレームワークは、ポーズ転送された人物画像を改善できるか?
- RQ3 ポーズヒートマップを入力として使用することで、座標ベースの埋め込みと比べてポーズの正確性と画像品質が向上するか?
- RQ4 ポーズ重視の損失は合成時の背景の漏洩とアーティファクトを減らすか?
主な発見
| モデル | SSIM(DeepFashion) | IS(DeepFashion) | SSIM(Market-1501) | IS(Market-1501) | mask-SSIM | mask-IS |
|---|---|---|---|---|---|---|
| G1-CE-L1 | 0.694 | 2.395 | 0.219 | 2.568 | 0.771 | 2.455 |
| G1-HME-L1 | 0.735 | 2.427 | 0.294 | 3.171 | 0.802 | 2.508 |
| G1-L1 | 0.735 | 2.427 | 0.304 | 3.006 | 0.809 | 2.455 |
| G1-poseMaskLoss | 0.779 | 2.668 | 0.340 | 3.326 | 0.817 | 2.682 |
| G1+D | 0.761 | 3.091 | 0.283 | 3.490 | 0.803 | 3.310 |
| G1+G2+D | 0.762 | 3.090 | 0.253 | 3.460 | 0.792 | 3.435 |
- ポーズヒートマップの埋め込みは座標埋め込みや他の変種よりも優れており、ポーズの正確さと視覚品質が向上する。
- ポーズマスク損失は人間の体に合成を集中させ、背景アーティファクトを減らすことで結果を一貫して改善する。
- 2段階のPG2(Stage I + Stage II の対向的リファインを伴う) は1段階の対向モデルよりも鋭く、より現実的な結果を生成する。
- 定量的結果は、DeepFashionとMarket-1501の両方で ablated variant よりもSSIMとInception Scoreが高い。
- ユーザースタディは、2段階モデルがより説得力があり、単一段階の変種よりもReal対Generatedの評価が高いことを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。