Skip to main content
QUICK REVIEW

[논문 리뷰] Superman: Unifying Skeleton and Vision for Human Motion Perception and Generation

Xinshun Wang, Peiming Li|arXiv (Cornell University)|2026. 02. 02.
Human Pose and Action Recognition인용 수 0
한 줄 요약

한 가지 통합 프레임워크로 시각 및 기하학에 근거한 크로스-modal 모션 어휘를 바탕으로 단일 MLLM이 비디오와 스켈레톤 입력에서 3D 자세 추정, 모션 예측, 모션 사이의 보간을 수행하게 합니다. Vision-Guided Motion Tokenizer와 선택적 MAFT로 개선된 모션 작업을 가진 다중모달 LLM 도입.

ABSTRACT

Human motion analysis tasks, such as temporal 3D pose estimation, motion prediction, and motion in-betweening, play an essential role in computer vision. However, current paradigms suffer from severe fragmentation. First, the field is split between ``perception'' models that understand motion from video but only output text, and ``generation'' models that cannot perceive from raw visual input. Second, generative MLLMs are often limited to single-frame, static poses using dense, parametric SMPL models, failing to handle temporal motion. Third, existing motion vocabularies are built from skeleton data alone, severing the link to the visual domain. To address these challenges, we introduce Superman, a unified framework that bridges visual perception with temporal, skeleton-based motion generation. Our solution is twofold. First, to overcome the modality disconnect, we propose a Vision-Guided Motion Tokenizer. Leveraging the natural geometric alignment between 3D skeletons and visual data, this module pioneers robust joint learning from both modalities, creating a unified, cross-modal motion vocabulary. Second, grounded in this motion language, a single, unified MLLM architecture is trained to handle all tasks. This module flexibly processes diverse, temporal inputs, unifying 3D skeleton pose estimation from video (perception) with skeleton-based motion prediction and in-betweening (generation). Extensive experiments on standard benchmarks, including Human3.6M, demonstrate that our unified method achieves state-of-the-art or competitive performance across all motion tasks. This showcases a more efficient and scalable path for generative motion analysis using skeletons.

연구 동기 및 목표

  • 하나의 모델로 인간 모션 분석에서 지각과 생성을 연결합니다.
  • 비주얼 외형과 3D 기하를 모두 반영하는 모션 토큰을 통해 비디오 입력과 골격 기반 작업을 연결합니다.
  • 지각 및 생성 작업을 하나의 아키텍처에서 처리할 수 있는 다목적 다중모달 대형 언어 모델을 개발합니다.

제안 방법

  • 비주얼 피처와 3D 골격 기하를 융합한 하이브리드 코드북에 양방향 모달 토큰을 담은 VQ-VAE를 기반으로 하는 Vision-Guided Motion Tokenizer (VGMT)를 제안합니다.
  • 시각(프레임 기반) 및 골격(관절-시간) 피처를 추출하는 이중 스트림 인코더를 사용하고 하이브리드 코드북에 대해 토큰 양자화를 수행합니다.
  • 재구성 및 모달리티별 약속 손실을 결합한 VQ 목표를 통해 토크나이저를 엔드-투-엔드로 학습합니다.
  • 다중 작업에 대해 모션 토큰을 자기회귀적으로 예측하도록 디코더-전용 다중모달 LLM(Qwen2.5-VL-7B)를 미세조정하고, 비주얼 피처에 골격 기하를 주입하는 Visual-Skeleton Attention (VSA)을 통해 Motion-Aware Fine-Tuning (MAFT) 모듈로 강화할 수 있습니다.
  • 세 가지 작업을 조건부 시퀀스 생성으로 공식화합니다: 비디오에서의 3D 포즈 추정, 과거 자세에서의 모션 예측, 키프레임 간 모션 사이의 보간.
Figure 2 : Architecture of our Vision-Guided Motion Tokenizer (VGMT). VGMT creates a discrete motion vocabulary by jointly fusing information from two modalities. A Skeleton Encoder ( $E_{s}$ ) captures geometry while a Visual-Skeleton Attention (VSA) module and a subsequent Visual Encoder ( $E_{v}$
Figure 2 : Architecture of our Vision-Guided Motion Tokenizer (VGMT). VGMT creates a discrete motion vocabulary by jointly fusing information from two modalities. A Skeleton Encoder ( $E_{s}$ ) captures geometry while a Visual-Skeleton Attention (VSA) module and a subsequent Visual Encoder ( $E_{v}$

실험 결과

연구 질문

  • RQ1하나의 unified 모델이 비전과 골격 기하를 근거로 한 크로스-모달 모션 어휘를 사용하여 여러 작업에서 인간 모션을 인지하고 생성할 수 있는가?
  • RQ2모션 토큰을 시각 입력에 근거시키는 것이 골격 전용 또는 시각 전용 토큰화에 비해 지각 및 생성 작업의 성능을 향상시키는가?
  • RQ3모델 및 코드북 확장, VSA/MAFT ablation, 통합 다-task 학습이 성능 및 일반화에 미치는 영향은 무엇인가?
  • RQ4제안된 프레임워크가 보지 못한 데이터셋(예: Human3.6M에서 3DPW로)의 지각 및 생성 작업에서 얼마나 잘 일반화하는가?

주요 결과

  • 통합 Superman 프레임워크는 표준 벤치마크에서 3D 포즈 추정, 모션 예측, 모션 사이의 보간에 대해 최첨단 또는 경쟁력 있는 성능을 달성합니다.
  • 하이브리드 시각-기하 코드북이 있는 Vision-Guided Motion Tokenizer는 효과적인 크로스-모달 포즈 표현을 가능하게 하고 다운스트림 작업 성능을 향상시킵니다.
  • MAFT 및 VSA 모듈은 모션 인지 및 생성을 모두 향상시키며, 두 모듈의 결합이 최상의 결과를 제공합니다.
  • 모델은 Human3.6M에서만 학습하더라도 보지 못한 데이터(예: 3DPW)로도 일반화가 잘 되며 일반화 테스트에서 기존 방법보다 우수합니다.
  • 모델 규모와 코드북 용량을 확장하면 포즈 오차가 일관되게 감소하여 확장성 이점을 보여줍니다.
Figure 3 : Network architecture and training paradigm. Superman fine-tune a single LLM to integrate information from text, video, and 3D skeleton modalities. Optionally, a Motion-Aware Fine-Tuning (MAFT) module can be integrated. With $<$ 0.2% extra parameters, MAFT enhances motion perception by ena
Figure 3 : Network architecture and training paradigm. Superman fine-tune a single LLM to integrate information from text, video, and 3D skeleton modalities. Optionally, a Motion-Aware Fine-Tuning (MAFT) module can be integrated. With $<$ 0.2% extra parameters, MAFT enhances motion perception by ena

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.