QUICK REVIEW

[論文レビュー] Deep representation learning for human motion prediction and classification

Judith Bütepage, Michael J. Black|arXiv (Cornell University)|Feb 24, 2017

Human Pose and Action Recognition参考文献 21被引用数 42

ひとこと要約

本論文では、大規模なモーショングラフデータセットから、多様で未学習の行動に一般化可能な低次元表現を学習するボトルネック構造を備えた深層フィードフォワードオートエンコーダーを提案する。この手法は、未学習の行動や欠損肢データに対しても、予測と分類の両面で強力な性能を示し、行動固有の微調整なしに優れた転送性と耐障害性を示す。

ABSTRACT

Generative models of 3D human motion are often restricted to a small number of activities and can therefore not generalize well to novel movements or applications. In this work we propose a deep learning framework for human motion capture data that learns a generic representation from a large corpus of motion capture data and generalizes well to new, unseen, motions. Using an encoding-decoding network that learns to predict future 3D poses from the most recent past, we extract a feature representation of human motion. Most work on deep learning for sequence prediction focuses on video and speech. Since skeletal data has a different structure, we present and evaluate different network architectures that make different assumptions about time dependencies and limb correlations. To quantify the learned features, we use the output of different layers for action classification and visualize the receptive fields of the network units. Our method outperforms the recent state of the art in skeletal motion prediction even though these use action specific training data. Our results show that deep feedforward networks, trained from a generic mocap database, can successfully be used for feature extraction from human motion data and that this representation can be used as a foundation for classification and prediction.

研究の動機と目的

定義済みの少数のアクションに限定されない、一般化可能な自己教師ありの運動表現の開発。
大規模なモーショングラフデータコーパスで学習した汎用モデルを用いて、3次元人間運動の長期的予測を高精度で実現すること。
ゼロショット行動分類を可能にし、欠損データ条件下でも頑健な推論を可能にする特徴表現の構築。
時間的畳み込みと階層的グラフ構造といった構造的事前知識を備えた全結合ネットワークが、人間運動ダイナミクスをどのようにモデル化できるかの検証。
フィードフォワードネットワークが、計算コストを低く抑えつつも、再帰モデルを上回る予測性能を示すかの実証。

提案手法

固定長の過去の関節ポーズウィンドウから将来の3次元関節ポーズを再構築することを目的とした、ボトルネック層を備えた深層オートエンコーダーを訓練。
再帰構造を一切持たない、完全に全結合なエンコーダ-デコーダアーキテクチャを採用。長期依存関係を捉えるために固定時間的コンテキストウィンドウに依存。
3つのバリエーションを検討：対称ネットワーク、時間的畳み込みエンコーダー（C-TE）、および四肢の相関をモデル化する階層的グラフベースエンコーダー（H-TE）。
階層的構造は、四肢のグループ化を尊重する完全結合グラフを用いて、人体の解剖学的トポロジーを表現。
CMU Mocapデータセット上でエンドツーエンドに訓練され、ボトルネック層でコンパクトで分離可能な表現を学習。
中間層の特徴表現を用いて行動分類を実施。また、受容場を可視化して、学習されたユニットの意味的解釈を試みた。

実験結果

リサーチクエスチョン

RQ1大規模で多様なモーショングラフデータセットから、一般化可能で低次元の運動表現をフィードフォワードオートエンコーダーが学習できるか？
RQ2フィードフォワードネットワークと再帰モデル（例：LSTM）を比較した場合、長期的3次元人間運動予測において、どちらが優れているか？
RQ3学習済み表現が、トレーニングデータに含まれない新しいアクションや未観測の被験者に対し、どの程度一般化できるか？
RQ4入力が不完全な場合（例：右腕や左脚が欠損）に、モデルが肢体ポーズを推定できるか。これは、入力欠損に対する耐障害性を示唆する。
RQ5時間的畳み込みと階層的グラフ接続といった、異なる構造的事前知識が、学習された運動表現の質にどのように影響するか？

主な発見

提案手法のフィードフォワードオートエンコーダーは、行動固有の微調整なしに、最先端の再帰モデルを上回る3次元人間運動予測性能を示した。
未学習のアクションや被験者に対しても良好な一般化性能を示し、多様な運動パターン間で強い転送性を示した。
右腕や左脚が欠損したデータをテストした結果、予測誤差は完全入力時と比較してわずか約0.1上昇にとどまり、強い耐障害性を示した。
階層的時間エンコーダー（H-TE）が最良の性能を示し、'食べる'アクションの160ms予測誤差は0.20にまで低下。対称的・畳み込み型の両変種を上回った。
受容場の可視化結果から、学習されたユニットが、腕を挙上する、脚を上げるといった意味のある運動パターンに応答していることが確認され、構造的な特徴学習が行われていることが裏付けられた。
ボトルネック表現はゼロショット行動分類においても高い精度を達成し、汎用的な運動特徴抽出器としての有用性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。