Skip to main content
QUICK REVIEW

[論文レビュー] Multi-Person 3D Motion Prediction with Multi-Range Transformers

Jiashun Wang, Huazhe Xu|arXiv (Cornell University)|Nov 23, 2021
Human Pose and Action Recognition被引用数 35
ひとこと要約

ローカルレンジとグローバルレンジのエンコーダ、そして Transformer デコーダを備えた Multi-Range Transformers フレームワークを導入し、複数人の3Dモーションを予測。長期予測で最先端を達成し、社会的相互作用のスケーラブルなグルーピングを実現。

ABSTRACT

We propose a novel framework for multi-person 3D motion trajectory prediction. Our key observation is that a human's action and behaviors may highly depend on the other persons around. Thus, instead of predicting each human pose trajectory in isolation, we introduce a Multi-Range Transformers model which contains of a local-range encoder for individual motion and a global-range encoder for social interactions. The Transformer decoder then performs prediction for each person by taking a corresponding pose as a query which attends to both local and global-range encoder features. Our model not only outperforms state-of-the-art methods on long-term 3D motion prediction, but also generates diverse social interactions. More interestingly, our model can even predict 15-person motion simultaneously by automatically dividing the persons into different interaction groups. Project page with code is available at https://jiashunwang.github.io/MRT/.

研究の動機と目的

  • 動機: シーン内の他者により人のモーションが影響を受けるため、共同の複数人予測が必要である。
  • 目標: 個々のモーションと社会的相互作用を共同で推論するモデルを開発し、長期的な3Dモーション予測を改善する。
  • 狙い: 多くの人がいる場面を含む、正確で多様性があり、拡張可能な複数人モーション予測を3秒先まで達成する。

提案手法

  • 二分岐エンコーダ設計: ローカルレンジ Transformer エンコーダは各人の履歴を処理して個々の滑らかな動作を実現し、グローバルレンジ Transformer エンコーダは時間を通じた人と人の社会的相互作用を処理する。
  • Transformer デコーダは、1つの観測姿勢をクエリとして使用し、ローカルおよびグローバルエンコーダの特徴に注意を払うことで将来のモーションを生成する。
  • グローバル特徴には空間的位置エンコーディングを追加し、相互作用する人物をクラスタリングし、複数人グルーピングを強化する。
  • 識別器モジュールは、自然で連続的なモーションを促進するよう対立的に訓練され、再構成損失と対立的損失を組み合わせた訓練を行う。
  • 入力は絶対関節位置を含むワールド座標系で表され、モデルは IDCT/linear パスを介してモーションデルタの列を出力し、3D軌道を生成する。
  • トレーニングは、漸進的に長い入力シーケンスと自己回帰推論を使用して、誤差蓄積を緩和する。

実験結果

リサーチクエスチョン

  • RQ1局所レンジとグローバルレンジの Transformer を組み合わせた joint は、複数人の3D軌道予測のために個々のモーションと社会的相互作用を効果的にモデルできるだろうか?
  • RQ2デコーダのクエリとして単一のポーズを使用し、モーションデルタを予測することは、長期予測の品質を改善し、モーションフリーズを減らすだろうか?
  • RQ39–15人のシーンに対してモデルはスケール可能で、明示的なグループラベルなしで自動的に相互作用グループを形成できるだろうか?

主な発見

  • 提案された Multi-Range Transformer (MRT) は、CMU-Mocap、MuPoTS-3D、3DPW データセット全体で長期3Dモーション予測において最先端の性能を達成する。
  • アブレーションの結果、ローカルレンジとグローバルレンジのエンコーダの両方が性能向上に寄与し、空間的位置エンコーディングは混雑したシーンで結果を改善する。
  • デコーダに単一のクエリポーズを使用することで、運動の繰り返しを効果的に防ぎ、長期予測でのドリフトを減らす。
  • モデルは社会的相互作用の定性的な多様性を示し、注意パターンに基づいて個人を暗黙的にグルーピングでき、明示的なグループ注釈は不要。
  • 9–15人での実験は MRT が群衆シナリオを扱い、自然なモーションを維持できることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。