[論文レビュー] Bipartite Graph Reasoning GANs for Person Image Generation
BiGraphGANはBipartite Graph Reasoning(BGR)とInteraction-and-Aggregation(IA)ブロックを導入し、長距離の人体ポーズ関係を跨ぐ推論をモデル化し、姿勢誘導の人物画像生成で外観と形状を共同に強化し、Market-1501とDeepFashionで定量・視覚的に強力な結果を達成する。
We present a novel Bipartite Graph Reasoning GAN (BiGraphGAN) for the challenging person image generation task. The proposed graph generator mainly consists of two novel blocks that aim to model the pose-to-pose and pose-to-image relations, respectively. Specifically, the proposed Bipartite Graph Reasoning (BGR) block aims to reason the crossing long-range relations between the source pose and the target pose in a bipartite graph, which mitigates some challenges caused by pose deformation. Moreover, we propose a new Interaction-and-Aggregation (IA) block to effectively update and enhance the feature representation capability of both person's shape and appearance in an interactive way. Experiments on two challenging and public datasets, i.e., Market-1501 and DeepFashion, show the effectiveness of the proposed BiGraphGAN in terms of objective quantitative scores and subjective visual realness. The source code and trained models are available at https://github.com/Ha0Tang/BiGraphGAN.
研究の動機と目的
- 人物画像生成におけるポーズ変形のモデリングを改善する動機付け。
- source and target posesの間の crossing long-range relations を捉えるグラフベースのモジュールを提案する。
- 形状と外観表現を共同で強化するインタラクティブブロックを開発する。
- 最終高品質画像を生成するための注意機構ベースの融合機構を導入する。
- 豊富な定量・定性的評価を含む2つの公開データセットで有効性を示す。
提案手法
- Graph Convolutional Networks (GCNs) によって source と target ポーズ間の crossing long-range relations をモデル化する Bipartite Graph Reasoning (BGR) ブロックを導入する。
- ポーズ特徴を二部グラフ空間へ投影し、クロスリレーション推論を実行して、残差接続で座標空間へ戻す。
- 形状と外観特徴を対話的に強化し更新を同期する Interaction-and-Aggregation (IA) ブロックを導入する。
- Attention-based Image Fusion (AIF) モジュールを用いて入力と中間結果を最適に結合し最終画像を生成する。
- 複数の敵対的損失、L1、知覚損失を用いてデュアル識別器(外観と形状)で訓練する。
- sourceとtargetのポーズを18チャネルのヒートマップとして表現し、形状エンコーダを共有する。)
実験結果
リサーチクエスチョン
- RQ1crossing long-range pose relationsを bipartite graph reasoning で効果的にモデル化して pose-to-pose および pose-to-image 変換を改善できるか?
- RQ2専用の IA モジュールは生成時の joint shaping と appearance representation を改善するか?
- RQ3attention-based fusion は入力と中間結果を選択的に結合してより現実的な最終画像の生成に寄与するか?
- RQ4BiGraphGAN は標準指標と人間評価の観点で Market-1501 と DeepFashion で最先端手法に対してどのような性能を示すか?
主な発見
- BiGraphGAN は Market-1501 で SSIM、Mask-SSIM、PCKh が複数の最先端手法と比較して優れている。
- BiGraphGAN は DeepFashion で SSIM と PCKh が複数の最先端手法と比較して優れている。
- 本手法は Inception Score (IS) が最も関連するモデル PATN より高い。
- ブレークダウン研究で BGR のブランチ(B2A と A2B)と非共有配置がベースラインより性能を改善し、AIF がさらなる向上をもたらす。
- ユーザ調査で BiGraphGAN が競合手法より写真リアルな画像を生成するとの結果。
- 定性的な結果は、いくつかのベースラインおよび SOTA PATN よりも明瞭でより妥当な人物画像を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。