QUICK REVIEW

[論文レビュー] Recurrent Network Models for Human Dynamics

Katerina Fragkiadaki, Sergey Levine|arXiv (Cornell University)|Aug 2, 2015

Human Pose and Action Recognition参考文献 44被引用数 73

ひとこと要約

この論文では、モーションキャプチャおよび動画における人間のダイナミクスをモデル化するためのエンコーダー・再帰的・デコーダー（ERD）再帰ニューラルネットワークモデルを提案する。エンド・トゥ・エンドの学習により、空間的・時間的表現とダイナミクスを同時に学習する。ERDは、特に遮蔽された関節においても、人間のポーズラベル付けおよび400ms後のポーズ予測においてベースラインを上回り、被験者やアクティビティをまたいで多様でドリフトしない動きを生成する。

ABSTRACT

We propose the Encoder-Recurrent-Decoder (ERD) model for recognition and prediction of human body pose in videos and motion capture. The ERD model is a recurrent neural network that incorporates nonlinear encoder and decoder networks before and after recurrent layers. We test instantiations of ERD architectures in the tasks of motion capture (mocap) generation, body pose labeling and body pose forecasting in videos. Our model handles mocap training data across multiple subjects and activity domains, and synthesizes novel motions while avoid drifting for long periods of time. For human pose labeling, ERD outperforms a per frame body part detector by resolving left-right body part confusions. For video pose forecasting, ERD predicts body joint displacements across a temporal horizon of 400ms and outperforms a first order motion model based on optical flow. ERDs extend previous Long Short Term Memory (LSTM) models in the literature to jointly learn representations and their dynamics. Our experiments show such representation learning is crucial for both labeling and prediction in space-time. We find this is a distinguishing feature between the spatio-temporal visual domain in comparison to 1D text, speech or handwriting, where straightforward hard coded representations have shown excellent results when directly combined with recurrent units.

研究の動機と目的

動画およびモーションキャプチャデータにおける複雑な人間のダイナミクスを統合的なディープラーニングフレームワークを用いてモデル化すること。
空間的表現と時間的ダイナミクスを同時に学習することで、ポーズ予測およびラベル付けの性能を向上させること。
複数の被験者やアクティビティをまたいで、多様で現実的でドリフトのない人間の動きを生成すること。
1次元の運動モデルおよびフレームごとの検出器の限界を克服し、遮蔽や左右の混同に対処すること。
空間的・時間的人の動きタスクにおける表現とダイナミクスのエンド・トゥ・エンド学習を可能にすること。

提案手法

ERDモデルは、入力データ（例：動画フレームやモーションキャプチャベクトル）を非線形エンコーダーで処理し、再帰的処理に適した潜在表現にマップする。
再帰層（LSTMベース）がエンコードされた系列を処理し、時間的ダイナミクスと依存関係をモデル化する。
非線形デコーダーが再帰状態から出力（例：関節ヒートマップやモーションキャプチャベクトル）を再構築する。
エンコーダー、再帰層、デコーダーの全コンポonentを統合的に最適化することで、ネットワーク全体をエンド・トゥ・エンドで訓練する。
動画タスクでは、エンコーダーはフレームごとのボディパーツ検出器から初期化されたCNNであり、デコーダーは全結合ネットワークである。
モデルは事前学習済み特徴量からファインチューニングされ、時間的文脈を活用して曖昧さを解消し、動きの整合性を向上させる。

実験結果

リサーチクエスチョン

RQ1統合的なディープラーニングモデルは、動画およびモーションキャプチャにおける人間の動きの表現とダイナミクスを同時に学習できるか？
RQ2エンコーダー、再帰層、デコーダーのコンponentsを統合的にエンド・トゥ・エンドで訓練することで、分離モデルと比較してポーズ予測およびラベル付けの性能がどの程度向上するか？
RQ3ERDモデルは、長時間系列においてドリフトを回避しながら、被験者やアクティビティドメインをまたいで一般化できるか？
RQ4時間的文脈を組み込むことで、フレームごとの検出器と比較して、遮蔽されたまたは曖昧なボディパーツの性能が向上するか？
RQ5400ms以上の長時間にわたるポーズ予測において、ERDモデルは1次元運動モデル（例：オプティカルフロー）と比較してどの程度優れているか？

主な発見

ERDは、特に関節予測における左右の混同を低減させることで、フレームごとのボディパーツ検出器よりも動画ポーズラベル付けで優れた性能を示す。
400ms後のポーズ予測において、ERDはゼロモーションおよびオプティカルフローに基づくベースラインを著しく上回り、特に遮蔽された下肢において顕著な改善を示す。
ERDは、モーションキャプチャデータにおいて、複数の被験者およびアクティビティタイプをまたいで、多様でドリフトのない人間の動き系列を成功裏に生成する。
非線形エンコーダーおよびデコーダーは不可欠である。標準的なマルチレイヤーLSTMモデルでは、これらが欠落していると、短い時間スパンを超えて現実的な動きを生成できない。
事前学習済みのフレームごとの検出器からエンコーダーをファインチューニングすることが性能向上に不可欠である。初期値がランダムな重みから訓練すると、収束が悪くなる。
H3.6Mのような大規模データセットは、ERD動画ラベルラーが一般的な動きのなめらかさの事前知識を上回るための必要不可欠である。小規模データセットでは過学習が生じる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。