[論文レビュー] Multi-Person 3D Motion Prediction with Multi-Range Transformers
ローカルレンジとグローバルレンジのエンコーダ、そして Transformer デコーダを備えた Multi-Range Transformers フレームワークを導入し、複数人の3Dモーションを予測。長期予測で最先端を達成し、社会的相互作用のスケーラブルなグルーピングを実現。
We propose a novel framework for multi-person 3D motion trajectory prediction. Our key observation is that a human's action and behaviors may highly depend on the other persons around. Thus, instead of predicting each human pose trajectory in isolation, we introduce a Multi-Range Transformers model which contains of a local-range encoder for individual motion and a global-range encoder for social interactions. The Transformer decoder then performs prediction for each person by taking a corresponding pose as a query which attends to both local and global-range encoder features. Our model not only outperforms state-of-the-art methods on long-term 3D motion prediction, but also generates diverse social interactions. More interestingly, our model can even predict 15-person motion simultaneously by automatically dividing the persons into different interaction groups. Project page with code is available at https://jiashunwang.github.io/MRT/.
研究の動機と目的
- 動機: シーン内の他者により人のモーションが影響を受けるため、共同の複数人予測が必要である。
- 目標: 個々のモーションと社会的相互作用を共同で推論するモデルを開発し、長期的な3Dモーション予測を改善する。
- 狙い: 多くの人がいる場面を含む、正確で多様性があり、拡張可能な複数人モーション予測を3秒先まで達成する。
提案手法
- 二分岐エンコーダ設計: ローカルレンジ Transformer エンコーダは各人の履歴を処理して個々の滑らかな動作を実現し、グローバルレンジ Transformer エンコーダは時間を通じた人と人の社会的相互作用を処理する。
- Transformer デコーダは、1つの観測姿勢をクエリとして使用し、ローカルおよびグローバルエンコーダの特徴に注意を払うことで将来のモーションを生成する。
- グローバル特徴には空間的位置エンコーディングを追加し、相互作用する人物をクラスタリングし、複数人グルーピングを強化する。
- 識別器モジュールは、自然で連続的なモーションを促進するよう対立的に訓練され、再構成損失と対立的損失を組み合わせた訓練を行う。
- 入力は絶対関節位置を含むワールド座標系で表され、モデルは IDCT/linear パスを介してモーションデルタの列を出力し、3D軌道を生成する。
- トレーニングは、漸進的に長い入力シーケンスと自己回帰推論を使用して、誤差蓄積を緩和する。
実験結果
リサーチクエスチョン
- RQ1局所レンジとグローバルレンジの Transformer を組み合わせた joint は、複数人の3D軌道予測のために個々のモーションと社会的相互作用を効果的にモデルできるだろうか?
- RQ2デコーダのクエリとして単一のポーズを使用し、モーションデルタを予測することは、長期予測の品質を改善し、モーションフリーズを減らすだろうか?
- RQ39–15人のシーンに対してモデルはスケール可能で、明示的なグループラベルなしで自動的に相互作用グループを形成できるだろうか?
主な発見
- 提案された Multi-Range Transformer (MRT) は、CMU-Mocap、MuPoTS-3D、3DPW データセット全体で長期3Dモーション予測において最先端の性能を達成する。
- アブレーションの結果、ローカルレンジとグローバルレンジのエンコーダの両方が性能向上に寄与し、空間的位置エンコーディングは混雑したシーンで結果を改善する。
- デコーダに単一のクエリポーズを使用することで、運動の繰り返しを効果的に防ぎ、長期予測でのドリフトを減らす。
- モデルは社会的相互作用の定性的な多様性を示し、注意パターンに基づいて個人を暗黙的にグルーピングでき、明示的なグループ注釈は不要。
- 9–15人での実験は MRT が群衆シナリオを扱い、自然なモーションを維持できることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。