Skip to main content
QUICK REVIEW

[논문 리뷰] Multi-Person 3D Motion Prediction with Multi-Range Transformers

Jiashun Wang, Huazhe Xu|arXiv (Cornell University)|2021. 11. 23.
Human Pose and Action Recognition인용 수 35
한 줄 요약

Introduces a Multi-Range Transformers framework with local-range and global-range encoders plus a Transformer decoder to predict multi-person 3D motion, achieving state-of-the-art long-term predictions and scalable grouping of social interactions.

ABSTRACT

We propose a novel framework for multi-person 3D motion trajectory prediction. Our key observation is that a human's action and behaviors may highly depend on the other persons around. Thus, instead of predicting each human pose trajectory in isolation, we introduce a Multi-Range Transformers model which contains of a local-range encoder for individual motion and a global-range encoder for social interactions. The Transformer decoder then performs prediction for each person by taking a corresponding pose as a query which attends to both local and global-range encoder features. Our model not only outperforms state-of-the-art methods on long-term 3D motion prediction, but also generates diverse social interactions. More interestingly, our model can even predict 15-person motion simultaneously by automatically dividing the persons into different interaction groups. Project page with code is available at https://jiashunwang.github.io/MRT/.

연구 동기 및 목표

  • 동기: 한 씬에서 타인의 영향으로 인간 모션이 형성되며, 다인 공동 예측이 필요하다.
  • 목표: 개별 모션과 사회적 상호작용을 함께 고려하여 장기 3D 모션 예측을 향상시키는 모델을 개발한다.
  • 목표: 많은 인원이 있는 장면을 포함하여 최대 3초 앞을 예측하는 정확하고 다양하며 확장 가능한 다인 모션 예측을 달성한다.

제안 방법

  • 이중 분기 인코더 설계: 로컬-범위 Transformer 인코더가 각 사람의 이력을 처리하여 매끄러운 개인 모션을 만들고, 글로벌-범위 Transformer 인코더가 시간에 걸친 사람 간 사회적 상호작용을 처리한다.
  • Transformer 디코더는 하나의 관찰된 포즈를 쿼리로 사용하여 로컬 및 글로벌 인코더 특징에 주목해 미래 모션을 생성한다.
  • 공간 위치 인코딩이 글로벌 특징에 추가되어 상호 작용하는 사람들을 클러스터링하고 다인 그룹화를 향상시킨다.
  • 자연스럽고 연속적인 모션을 촉진하기 위해 적대적 학습으로 훈련되는 판별기 모듈; 학습은 재구성 손실과 적대적 손실을 결합한다.
  • 입력은 절대 관절 위치를 가진 월드 좌표계로 표현되며, 모델은 IDCT/선형 경로를 통해 3D 트레이젝토리를 생성하는 모션 델타의 시퀀스를 출력한다.
  • 학습은 점진적으로 더 긴 입력 시퀀스를 사용하고 오토레이그레시브 추론으로 오차 누적을 완화한다.

실험 결과

연구 질문

  • RQ1로컬 및 글로벌 범위 Transformer의 공동 모델링으로 다인 3D 트레이젝토리 예측에 대해 개별 모션과 사회적 상호작용을 효과적으로 모델링할 수 있는가?
  • RQ2디코더 쿼리로 하나의 포즈를 사용하고 모션 델타를 예측하는 것이 장기 예측 품질을 향상시키고 모션 프리징을 줄이는가?
  • RQ39–15명의 인원이 있는 장면에 대해 모델이 확장 가능하며 명시적 그룹 라벨 없이 상호작용 그룹을 자동으로 형성할 수 있는가?

주요 결과

  • 제안된 Multi-Range Transformer (MRT)는 CMU-Mocap, MuPoTS-3D, 3DPW 데이터셋에서 장기 3D 모션 예측에 대해 최첨단 성능을 달성한다.
  • Ablation 실험은 로컬-범위 인코더와 글로벌-범위 인코더가 성능 향상에 기여함을 보여주며, 공간 위치 인코딩이 붐비는 장면에서 결과를 향상시킨다.
  • 디코더에 단일 쿼리 포즈를 사용하는 것은 모션 중복을 효과적으로 방지하고 장기 예측에서 드리프트를 줄인다.
  • 모델은 사회적 상호작용의 질적 다양성을 보여주고 주의 패턴에 따라 암시적으로 개인들을 그룹화할 수 있으며 명시적 그룹 주석 없이도 가능하다.
  • 9–15명의 인원 실험에서 MRT가 군중 상황을 처리하고 자연스러운 모션을 유지할 수 있음을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.