[論文レビュー] Superman: Unifying Skeleton and Vision for Human Motion Perception and Generation
ビジョンと幾何学に grounded なクロスモーダルモーション語彙を統合するフレームワークにより、単一のMLLMがビデオとスケルトン入力から3Dポーズ推定、モーション予測、およびモーション間補完を実行可能にする。Vision-Guided Motion Tokenizerと、モーションタスクを改善するOptional MAFTを備えたマルチモーダルLLMを導入。
Human motion analysis tasks, such as temporal 3D pose estimation, motion prediction, and motion in-betweening, play an essential role in computer vision. However, current paradigms suffer from severe fragmentation. First, the field is split between ``perception'' models that understand motion from video but only output text, and ``generation'' models that cannot perceive from raw visual input. Second, generative MLLMs are often limited to single-frame, static poses using dense, parametric SMPL models, failing to handle temporal motion. Third, existing motion vocabularies are built from skeleton data alone, severing the link to the visual domain. To address these challenges, we introduce Superman, a unified framework that bridges visual perception with temporal, skeleton-based motion generation. Our solution is twofold. First, to overcome the modality disconnect, we propose a Vision-Guided Motion Tokenizer. Leveraging the natural geometric alignment between 3D skeletons and visual data, this module pioneers robust joint learning from both modalities, creating a unified, cross-modal motion vocabulary. Second, grounded in this motion language, a single, unified MLLM architecture is trained to handle all tasks. This module flexibly processes diverse, temporal inputs, unifying 3D skeleton pose estimation from video (perception) with skeleton-based motion prediction and in-betweening (generation). Extensive experiments on standard benchmarks, including Human3.6M, demonstrate that our unified method achieves state-of-the-art or competitive performance across all motion tasks. This showcases a more efficient and scalable path for generative motion analysis using skeletons.
研究の動機と目的
- 単一モデルで人間の動作分析の知覚と生成を橋渡しする。
- 視覚的外観と3D幾何学の両方にモーションTokenを grounding して、ビデオ入力とスケルトンベースのタスクを結びつける。
- 知覚と生成タスクを1つのアーキテクチャで扱える多目的なマルチモーダル大規模言語モデルを開発する。
提案手法
- 視覚特徴と3D骨格幾何を組み合わせたハイブリッドコードブックを用いるVQ-VAEベースのVision-Guided Motion Tokenizer (VGMT)を提案する。
- デュアルストリームエンコーダで視覚(フレームベース)と骨格(関節-時系列)特徴を抽出し、ハイブリッドコードブックに対してトークンを量子化する。
- 再構成とモダリティ別コミットメント損失を組み合わせたVQ目的関数でエンドツーエンドでトークナイザーを訓練する。
- デコーダーのみを用いるマルチモーダルLLM(Qwen2.5-VL-7B)をファインチューニングして、複数タスクのモーションTokenを自己回帰的に予測する。必要に応じて、視覚特徴に骨格幾何を注入するVisual-Skeleton Attention (VSA)を備えたMotion-Aware Fine-Tuning (MAFT) モジュールを強化する。
- 3つのタスクを条件付き系列生成として定式化する:ビデオからの3Dポーズ推定、過去ポーズからのモーション予測、キーフレーム間のモーション間補完。

実験結果
リサーチクエスチョン
- RQ1単一の統一モデルが、視覚とスケルトン幾何に grounded なクロスモーダルモーション語彙を用いて、複数タスクの知覚と生成を行えるか?
- RQ2モーションTokenを視覚入力に grounding することは、骨格のみまたは視覚のみのトークン化と比べて、知覚および生成タスクの性能を向上させるか?
- RQ3モデルおよびコードブックのスケーリング、VSA/MAFT アブレーション、統一的マルチタスク訓練が性能と一般化に与える影響は?
- RQ4提案フレームワークは未知データセット(例:Human3.6M から 3DPW)への一般化性能はどうなるか(知覚と生成タスク)?
主な発見
- 統合型 Superman フレームワークは、標準ベンチマーク上で3Dポーズ推定、モーション予測、モーション間補完のいずれでも最先端または競争力のある結果を達成する。
- ハイブリッド視覚幾何コードブックを備えた Vision-Guided Motion Tokenizer は、効果的なクロスモーダルポーズ表現を可能にし、下流タスクの性能を向上させる。
- MAFT と VSA の両方のモジュールがモーション知覚と生成の改善に寄与し、それらの組み合わせが最良の結果を提供する。
- モデルは unseen データ(例:3DPW)への一般化性能が高く、Human3.6M のみで訓練された場合でも既存手法を上回る一般化テストを示す。
- モデルサイズとコードブック容量を拡大するとポーズ誤差が一貫して減少し、スケーラビリティの利点を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。