QUICK REVIEW

[論文レビュー] Learning Human Motion Models for Long-term Predictions

Partha Ghosh, Jie Song|arXiv (Cornell University)|Apr 10, 2017

Human Pose and Action Recognition参考文献 32被引用数 19

ひとこと要約

本論文では、時間的モデリングに3層LSTMを、空間的構造の暗黙的学習にドロップアウトベースのオートエンコーダーを組み合わせた、新しいアーキテクチャであるドロップアウトオートエンコーダーLSTM（DAE-LSTM）を提案する。この手法は、欠損した関節を再構築することで、骨格の空間的構造を暗黙的に学習する。実験では、周期的運動では10秒以上、非周期的運動では2秒以上にわたり自然でドリフトのないシーケンスを生成し、最先端の長期間運動予測を達成した。評価には、新しいアクション分類器ベースのプロトコルを採用した。

ABSTRACT

We propose a new architecture for the learning of predictive spatio-temporal motion models from data alone. Our approach, dubbed the Dropout Autoencoder LSTM, is capable of synthesizing natural looking motion sequences over long time horizons without catastrophic drift or motion degradation. The model consists of two components, a 3-layer recurrent neural network to model temporal aspects and a novel auto-encoder that is trained to implicitly recover the spatial structure of the human skeleton via randomly removing information about joints during training time. This Dropout Autoencoder (D-AE) is then used to filter each predicted pose of the LSTM, reducing accumulation of error and hence drift over time. Furthermore, we propose new evaluation protocols to assess the quality of synthetic motion sequences even for which no ground truth data exists. The proposed protocols can be used to assess generated sequences of arbitrary length. Finally, we evaluate our proposed method on two of the largest motion-capture datasets available to date and show that our model outperforms the state-of-the-art on a variety of actions, including cyclic and acyclic motion, and that it can produce natural looking sequences over longer time horizons than previous methods.

研究の動機と目的

手作業で作成された空間的・時間的グラフに依存せずに、多様な人間の行動に一般化可能なデータ駆動型の空間的・時間的運動予測モデルを開発すること。
空間再構築と時間的モデリングを分離することで、運動生成における長期的ドリフトや劣化を緩和すること。
長期間にわたり自然で一貫性のある合成運動シーケンスの質を定量化する新しい評価プロトコルを提案すること。
大規模なモーショングラフデータセット上で、最先端の手法と比較して優れた性能を示す長期間運動予測の実現

提案手法

モデルは、過去の履歴に基づいて次のポーズを予測するため、3層LSTMを用いて人間の運動シーケンス内の時間的依存性をモデル化する。
ドロップアウトオートエンコーダー（DAE）は、学習中に全関節の位置をランダムに削除することで、完全な骨格ポーズを再構築するように訓練され、ネットワークが空間的関係を推論するよう強制される。
DAEはポーズフィルタとして機能し、LSTMに供給される各予測ポーズをノイズ除去する。これにより、時間経過に伴う誤差の蓄積とドリフトが低減される。
空間的構造の学習（DAEによる）と時間的シーケンスモデリング（LSTMによる）を分離することで、一般化性能と安定性が向上する。
予め訓練されたアクション分類器を、新しい評価指標として用いる：同じアクションラベルが長期間にわたり正しく分類されるほど、合成シーケンスの質が高く、自然であると示される。
本手法は、次元削減を施さずに、関節角度表現を直接用いてH3.6MおよびHoldenのモーショングラフデータセット上で訓練および評価された。

実験結果

リサーチクエスチョン

RQ1教師なしグラフ情報の下で、学習中に関節のドロップアウトを用いることで、深層学習モデルが空間的骨格構造を暗黙的に学習できるか？
RQ2空間再構築と時間的モデリングを分離することで、運動生成における長期的予測ドリフトが低減されるか？
RQ3アクション分類器が、人間の判断と相関する指標として、長期間にわたる合成運動シーケンスの自然さを信頼性を持って評価できるか？
RQ4提案されたDAE-LSTMモデルは、周期的および非周期的アクションの両方において、最先端の手法と比較して長期間運動予測で優れた性能を示すか？

主な発見

DAE-LSTMモデルは、周期的運動（例：歩行）では10秒以上、非周期的運動（例：食事）では2秒以上にわたり、自然に見える運動シーケンスを生成し、従来手法に比べて顕著に優れた長期的安定性を示した。
H3.6MおよびHoldenデータセットの両方において、ポーズ予測精度の短期間および長期間の両方において、3層LSTMベースラインおよび2つの最先端モデル（ERDなど）を上回った。
アクション分類器を用いた評価プロトコルは、高品質で一貫性のある運動シーケンスと劣化・ドリフトを示すシーケンスを効果的に区別できた。DAE-LSTMは、歩行シーケンスにおいて10秒以上にわたり、正しいアクションクラス確率を維持した。
食事アクティビティでは、初期段階では「座る」と誤分類されるが、手の動きが顕著になると正しく「食事」と分類されるようになり、運動ダイナミクスに敏感であることが示された。
モデルは最小限のドリフトを示し、知覚的に妥当な運動を維持しているが、わずかな後傾姿勢が生成シーケンスに見られるため、重力やバランス制約が欠落しているため物理的リアリズムに欠ける可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。