QUICK REVIEW

[논문 리뷰] Multi-Person 3D Motion Prediction with Multi-Range Transformers

Jiashun Wang, Huazhe Xu|arXiv (Cornell University)|2021. 11. 23.

Human Pose and Action Recognition인용 수 35

한 줄 요약

Introduces a Multi-Range Transformers framework with local-range and global-range encoders plus a Transformer decoder to predict multi-person 3D motion, achieving state-of-the-art long-term predictions and scalable grouping of social interactions.

ABSTRACT

We propose a novel framework for multi-person 3D motion trajectory prediction. Our key observation is that a human's action and behaviors may highly depend on the other persons around. Thus, instead of predicting each human pose trajectory in isolation, we introduce a Multi-Range Transformers model which contains of a local-range encoder for individual motion and a global-range encoder for social interactions. The Transformer decoder then performs prediction for each person by taking a corresponding pose as a query which attends to both local and global-range encoder features. Our model not only outperforms state-of-the-art methods on long-term 3D motion prediction, but also generates diverse social interactions. More interestingly, our model can even predict 15-person motion simultaneously by automatically dividing the persons into different interaction groups. Project page with code is available at https://jiashunwang.github.io/MRT/.

연구 동기 및 목표

동기: 한 씬에서 타인의 영향으로 인간 모션이 형성되며, 다인 공동 예측이 필요하다.
목표: 개별 모션과 사회적 상호작용을 함께 고려하여 장기 3D 모션 예측을 향상시키는 모델을 개발한다.
목표: 많은 인원이 있는 장면을 포함하여 최대 3초 앞을 예측하는 정확하고 다양하며 확장 가능한 다인 모션 예측을 달성한다.

제안 방법

이중 분기 인코더 설계: 로컬-범위 Transformer 인코더가 각 사람의 이력을 처리하여 매끄러운 개인 모션을 만들고, 글로벌-범위 Transformer 인코더가 시간에 걸친 사람 간 사회적 상호작용을 처리한다.
Transformer 디코더는 하나의 관찰된 포즈를 쿼리로 사용하여 로컬 및 글로벌 인코더 특징에 주목해 미래 모션을 생성한다.
공간 위치 인코딩이 글로벌 특징에 추가되어 상호 작용하는 사람들을 클러스터링하고 다인 그룹화를 향상시킨다.
자연스럽고 연속적인 모션을 촉진하기 위해 적대적 학습으로 훈련되는 판별기 모듈; 학습은 재구성 손실과 적대적 손실을 결합한다.
입력은 절대 관절 위치를 가진 월드 좌표계로 표현되며, 모델은 IDCT/선형 경로를 통해 3D 트레이젝토리를 생성하는 모션 델타의 시퀀스를 출력한다.
학습은 점진적으로 더 긴 입력 시퀀스를 사용하고 오토레이그레시브 추론으로 오차 누적을 완화한다.

실험 결과

연구 질문

RQ1로컬 및 글로벌 범위 Transformer의 공동 모델링으로 다인 3D 트레이젝토리 예측에 대해 개별 모션과 사회적 상호작용을 효과적으로 모델링할 수 있는가?
RQ2디코더 쿼리로 하나의 포즈를 사용하고 모션 델타를 예측하는 것이 장기 예측 품질을 향상시키고 모션 프리징을 줄이는가?
RQ39–15명의 인원이 있는 장면에 대해 모델이 확장 가능하며 명시적 그룹 라벨 없이 상호작용 그룹을 자동으로 형성할 수 있는가?

주요 결과

제안된 Multi-Range Transformer (MRT)는 CMU-Mocap, MuPoTS-3D, 3DPW 데이터셋에서 장기 3D 모션 예측에 대해 최첨단 성능을 달성한다.
Ablation 실험은 로컬-범위 인코더와 글로벌-범위 인코더가 성능 향상에 기여함을 보여주며, 공간 위치 인코딩이 붐비는 장면에서 결과를 향상시킨다.
디코더에 단일 쿼리 포즈를 사용하는 것은 모션 중복을 효과적으로 방지하고 장기 예측에서 드리프트를 줄인다.
모델은 사회적 상호작용의 질적 다양성을 보여주고 주의 패턴에 따라 암시적으로 개인들을 그룹화할 수 있으며 명시적 그룹 주석 없이도 가능하다.
9–15명의 인원 실험에서 MRT가 군중 상황을 처리하고 자연스러운 모션을 유지할 수 있음을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.