QUICK REVIEW

[論文レビュー] History Repeats Itself: Human Motion Prediction via Motion Attention

Wei Mao, Miaomiao Liu|arXiv (Cornell University)|Jul 23, 2020

Human Pose and Action Recognition参考文献 31被引用数 30

ひとこと要約

本論文は、過去のモーション部分列に対してモーションアテンションを用い、DCTでエンコードした注意機構ベースのフィードフォワードモデルを提案し、将来の人体姿勢を予測し、その後にGCN予測子を適用します。Human3.6M、AMASS、3DPWで最先端の成果を達成します。

ABSTRACT

Human motion prediction aims to forecast future human poses given a past motion. Whether based on recurrent or feed-forward neural networks, existing methods fail to model the observation that human motion tends to repeat itself, even for complex sports actions and cooking activities. Here, we introduce an attention-based feed-forward network that explicitly leverages this observation. In particular, instead of modeling frame-wise attention via pose similarity, we propose to extract motion attention to capture the similarity between the current motion context and the historical motion sub-sequences. Aggregating the relevant past motions and processing the result with a graph convolutional network allows us to effectively exploit motion patterns from the long-term history to predict the future poses. Our experiments on Human3.6M, AMASS and 3DPW evidence the benefits of our approach for both periodical and non-periodical actions. Thanks to our attention model, it yields state-of-the-art results on all three datasets. Our code is available at https://github.com/wei-mao-2019/HisRepItself.

研究の動機と目的

長時間にわたって人のモーションが繰り返される傾向があるという制約を動機づけ、対処する。
静的なフレームではなくモーション部分列上で動作するアテンション機構を開発する。
長期の歴史的モーションパターンを活用して短期および長期の予測を改善する。
モーションアテンションとグラフ畳み込みネットワークを組み合わせて関節間の空間的依存性をモデル化する。
複数のデータセットとアクションタイプに対する一般化を示す。

提案手法

過去のモーションをサブシーケンスの列として表現し、それぞれをDiscrete Cosine Transform (DCT)でエンコードする。
クエリを最新の観測サブシーケンスとして定義し、キー/バリューを歴史的サブシーケンスとそれらのDCTエンコードされた未来として定義する。
クエリとキー間のドット積を正規化してアテンションを計算し、対応するDCT値を集約してモーションコンテキストベクトルを形成する。
モーションコンテキストベクトルを最新の観測モーションと結合し、GCNベースの予測子に入力して空間-時間的依存性をモデル化する。
DCTドメインで残差を予測し、逆DCTを適用して座標または角度を得ることで将来の姿勢を予測する。
約3.4Mパラメータのコンパクトな2モジュールパイプライン（モーションアテンション＋予測子）を使用する。

実験結果

リサーチクエスチョン

RQ1過去のモーション部分列上のモーションアテンションは、フレームベースのアテンションや従来手法と比較して、短期および長期の人間のモーション予測を改善できるか。
RQ2モーションアテンションを介して長期の反復的モーションパターンを活用することは、データセットやアクションタイプ（H3.6M、AMASS、3DPW）全体で一般化するか。
RQ3DCTエンコードされたモーション履歴をGCN予測子と統合することで、異なるホライゾンにわたる予測品質と安定性にどのような影響があるか。

主な発見

提案されたモーションアテンションモデルは、3D座標と関節角度の両方で、短期および長期のホライズンにおいて3つのデータセットすべてで最先端の成果を達成する。
モーションアテンションは関連する過去のモーション部分列を集約し、短い履歴を超える長期の反復パターンを効果的に活用できる。
単一の統合モデルで、異なるホライゾンの予測を別々のモデルにせずに扱える。
本手法はデータセット（H3.6M、AMASS、3DPW）全体で強い一般化能力を示し、明確な反復履歴を持つアクションで特に効果的。
モデルはコンパクトなままで（約3.4Mパラメータ）、勾配の問題を緩和するためsoftmaxを使わない単純なアテンション機構を採用している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。