Skip to main content
QUICK REVIEW

[論文レビュー] Liquid Warping GAN: A Unified Framework for Human Motion Imitation, Appearance Transfer and Novel View Synthesis

Wen Liu, Zhixin Piao|arXiv (Cornell University)|Sep 26, 2019
Generative Adversarial Networks and Image Synthesis参考文献 42被引用数 25
ひとこと要約

本稿では、3次元ボディメッシュの分離と液体変形ブロック(LWB)を用いた統合的フレームワーク、Liquid Warping GANを提案する。LWBは画像空間と特徴空間の両方を経由して特徴を統合することで、元のアイデンティティや詳細を保持する。本手法は、特に遮蔽やマルチソース設定下でも顔のアイデンティティ、衣類のディテール、形状の一貫性を優れた性能で維持する。

ABSTRACT

We tackle the human motion imitation, appearance transfer, and novel view synthesis within a unified framework, which means that the model once being trained can be used to handle all these tasks. The existing task-specific methods mainly use 2D keypoints (pose) to estimate the human body structure. However, they only expresses the position information with no abilities to characterize the personalized shape of the individual person and model the limbs rotations. In this paper, we propose to use a 3D body mesh recovery module to disentangle the pose and shape, which can not only model the joint location and rotation but also characterize the personalized body shape. To preserve the source information, such as texture, style, color, and face identity, we propose a Liquid Warping GAN with Liquid Warping Block (LWB) that propagates the source information in both image and feature spaces, and synthesizes an image with respect to the reference. Specifically, the source features are extracted by a denoising convolutional auto-encoder for characterizing the source identity well. Furthermore, our proposed method is able to support a more flexible warping from multiple sources. In addition, we build a new dataset, namely Impersonator (iPER) dataset, for the evaluation of human motion imitation, appearance transfer, and novel view synthesis. Extensive experiments demonstrate the effectiveness of our method in several aspects, such as robustness in occlusion case and preserving face identity, shape consistency and clothes details. All codes and datasets are available on https://svip-lab.github.io/project/impersonator.html

研究の動機と目的

  • 人間の画像合成におけるタスク特化型パイプラインの限界に対処するため、動きの模倣、外観転送、新規ビュー合成を1つのフレームワークに統合すること。
  • 既存のポーズガイドド GAN で一般的に見られる、特に顔のアイデンティティや衣類テクスチャの劣化を克服すること。
  • 頭部を1つのソース、ボディを別のソースから組み合わせるなど、柔軟なマルチソース変形を可能にし、外観転送における局所的アイデンティティ保持を向上させること。
  • 自己遮蔽や大規模なポーズ変化に対しても形状の一貫性を保ち、効果的に処理できる堅牢な手法を開発すること。
  • すべての3つのタスクにおいて一貫した設定で評価・比較可能な新しいベンチマークデータセット iPER を開発すること。

提案手法

  • ポーズと形状を分離する3次元ボディメッシュ回復モジュールを採用し、2次元キーポイントを上回る関節位置、回転、および個人に特化したボディ構造の正確なモデリングを可能にする。
  • 液体変形ブロック(LWB)を設計し、元の特徴を画像空間と特徴空間の両方を経由して伝搬させ、局所的パーツ特徴をグローバルストリームに融合することでアイデンティティとテクスチャを保持する。
  • ノイズ除去畳み込みオートエンコーダーを用いて、ダウンサンプリング操作に対しても色、スタイル、テクスチャ、顔のアイデンティティを保持する堅牢なソース特徴を抽出する。
  • 異なるソース画像(例:1つのソースから頭部、別のソースからボディ)の特徴を個別に処理し、統一された特徴表現に統合することでマルチソース変形をサポートする。
  • 対抗的学習に加え、知覚的損失とアイデンティティに配慮した損失を統合し、生成画像のリアリズムと忠実度を向上させる。
  • 統合モデルを一度学習し、再学習なしにすべての3つのタスク(動きの模倣、外観転送、新規ビュー合成)に展開可能にすること。

実験結果

リサーチクエスチョン

  • RQ11つのディープラーニングフレームワークが、一貫した性能で人間の動きの模倣、外観転送、新規ビュー合成を統合的に実現できるか?
  • RQ2大規模な幾何的変形下でも、顔のアイデンティティや衣類ディテールといったソースアイデンティティをどのように保持できるか?
  • RQ32次元キーポイントベースの手法と比較して、3次元ボディメッシュ回復により形状の一貫性とポーズ精度がどの程度向上するか?
  • RQ4液体変形ブロック(LWB)のような新規な変形機構は、従来の連結、テクスチャ変形、特徴変形を上回る性能を示せるか?
  • RQ5本モデルは、未知の視点やドメイン外の参照画像に対して、特に遮蔽や複雑なポーズ状況下でもどの程度一般化できるか?

主な発見

  • iPERデータセットにおいて、本手法は最高のSSIM(0.840)と最小のLPIPS(0.087)を達成し、PG2、SHUP、DSCおよび他のベースラインを上回る性能を示した。
  • 本手法は、PG2 や DSC で見られるような高さや比率の歪みを回避し、正確にソースボディの形状を保持する。
  • 自己遮蔽状況(例:顔が隠れている場合)においても、競合手法よりもよりリアリスティックで整合性のある画像コンテンツを生成する。
  • 参照画像が異なるドメイン(例:インターネット画像)からの場合でも、顔のアイデンティティと衣類テクスチャの詳細を高い忠実度で維持する。
  • LWBを用いた手法はベースラインを著しく上回り、最良のベースライン($W_F$)と比較してLPIPSを14.8%低減した。これは、より優れた知覚的類似性を示している。
  • フレームワークは新規ビュー合成に対しても成功裏に一般化し、12の視点角度(30°〜330°)で妥当で一貫性のある画像を生成した。遮蔽された視点における見えない部分に対しても同様に有効であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。