QUICK REVIEW

[論文レビュー] Human Motion Modeling using DVGANs

Xiao Lin, Mohamed R. Amer|arXiv (Cornell University)|Apr 27, 2018

Human Pose and Action Recognition参考文献 32被引用数 42

ひとこと要約

DVGANs は、テキスト説明に条件付けられた密な検証 Wasserstein GAN フレームワークを用いて、人間の動作生成と補完を行う。CNN と RNN のジェネレーターと、密な多解像度ディスクリミネーターを組み合わせ、長く多様で現実的な動作系列を生成する。CMU Mocap と Human3.6M での評価は、 inception スコアと取得指標で示される。

ABSTRACT

We present a novel generative model for human motion modeling using Generative Adversarial Networks (GANs). We formulate the GAN discriminator using dense validation at each time-scale and perturb the discriminator input to make it translation invariant. Our model is capable of motion generation and completion. We show through our evaluations the resiliency to noise, generalization over actions, and generation of long diverse sequences. We evaluate our approach on Human 3.6M and CMU motion capture datasets using inception scores.

研究の動機と目的

スクラッチからの長く多様な人間の動作生成および動作補完の課題を動機づけ、対処する。
CNN / RNN コンポーネントを組み合わせた DVGANs アーキテクチャを提案し、密な多解像度 CNN ディスクリミネーターと組み合わせる。
動作生成をテキスト記述に条件付けして、ゼロショットまたは未知のアクションを可能にする。
ノイズへの頑健性を示し、短期予測を超えた長い系列を生成する能力を示す。
大規模モーションキャプチャデータセットで生成品質と取得整合性をベンチマークする。

提案手法

ジェネレーターとディスクリミネーターの両方に CNN および RNN コンポーネントを組み込む DVGANs を導入する。
安定した学習のために Gradient Penalty を用いた Wasserstein GAN (WGAN-GP) を使用する。
固定クラスラベルではなく、テキスト記述の条件付けをジェネレーターとディスクリミネーターの両方に適用する。
欠陥を検出しやすくするために、ディスクリミネーター内で複数の時間解像度で密な検証を実装する。
翻訳不変性を強制するために入力系列を平行移動させてデータ拡張を組み込む。
二つのジェネレーター変種を提供する：RNN ベースの生成器は生成と補完、CNN ベースの生成器は低フレームレートのアニメーションを段階的にアップサンプリングして生成。
動画とテキストをエンコードし、多解像度の検証スコアを用いる CNN ベースのディスクリミネーターを定式化する。
L2 正則化付き最適化とリップシッツ制約を用いて訓練し、固定長出力を得るためのファイナルカット機構を適用する。

実験結果

リサーチクエスチョン

RQ1DVGANs は、シードフレームなしでテキスト記述から長く多様で現実的な人間の動作系列を生成できるか。
RQ2ディスクリミネーターにおける密な多解像度検証は、生成品質と安定性にどう影響するか。
RQ3テキスト条件付けは、未知のアクションへの一般化と動作補完を改善するか。
RQ4データ拡張とファイナルカットサンプリングは生成および取得指標にどのような影響を与えるか。
RQ5CNN と RNN のジェネレーターアーキテクチャは、動作生成と補完タスクでどのように比較されるか。

主な発見

DVGANs は長く高品質な動作生成を達成し、動作補完も可能である。
時刻解像度全体にわたる密な検証は、単一レイヤー検証と比較して inception スコアと取得指標を改善する。
データ拡張とファイナルカット戦略は追加の改善をもたらし、取得精度の改善が顕著である。
CNN ベースの生成器は一般に高い inception スコアと強力な生成能力を示し、RNN ベースの生成器は動作補完に優れる。
CMU Mocap と Human3.6M での実験は、現実的で多様な動作と、アクション全体、さらには未知のタスクへの一般化能力を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。