Skip to main content
QUICK REVIEW

[논문 리뷰] Dynamic Multiscale Graph Neural Networks for 3D Skeleton-Based Human Motion Prediction

Maosen Li, Siheng Chen|arXiv (Cornell University)|2020. 03. 17.
Human Pose and Action Recognition참고 문헌 49인용 수 29
한 줄 요약

이 논문은 3D 스켈레톤 기반 인간 운동 예측을 위한 동적 다중스케일 그래프 신경망(DMGNN)을 제안한다. 이는 다중 공간 스케일에서 계층적인 신체 부위 관계를 모델링하기 위해 적응형이고 동적인 다중스케일 그래프를 사용한다. 본 방법은 단일스케일 및 크로스스케일 그래프 컨볼루션을 포함하는 새로운 다중스케일 그래프 계산 단위(MGCU)와 디코더에서 그래프 기반 GRU를 결합하여, Human 3.6M 및 CMU Mocap 데이터셋에서 단기 및 장기 예측 모두에서 최신 기준(SOTA) 성능을 달성한다.

ABSTRACT

We propose novel dynamic multiscale graph neural networks (DMGNN) to predict 3D skeleton-based human motions. The core idea of DMGNN is to use a multiscale graph to comprehensively model the internal relations of a human body for motion feature learning. This multiscale graph is adaptive during training and dynamic across network layers. Based on this graph, we propose a multiscale graph computational unit (MGCU) to extract features at individual scales and fuse features across scales. The entire model is action-category-agnostic and follows an encoder-decoder framework. The encoder consists of a sequence of MGCUs to learn motion features. The decoder uses a proposed graph-based gate recurrent unit to generate future poses. Extensive experiments show that the proposed DMGNN outperforms state-of-the-art methods in both short and long-term predictions on the datasets of Human 3.6M and CMU Mocap. We further investigate the learned multiscale graphs for the interpretability. The codes could be downloaded from https://github.com/limaosen0/DMGNN.

연구 동기 및 목표

  • 기존 방법이 이원적 관절 연결을 초월한 복잡한 기능적 신체 부위 관계를 모델링하는 데에 한계가 있음을 해결하기 위해.
  • 국소적 및 전반적인 운동 역학을 모두 포착하는 계층적이고 다중스케일의 인간 신체 표현을 개발하기 위해.
  • 행동 카테고리에 관계없이 운동 예측을 가능하게 하기 위해, 행동 레이블에 의존하지 않고도 구분 가능한 운동 민감도 그래프 구조를 학습하기 위해.
  • 고차 운동 차이(속도, 가속도)를 입력 프록시로 통합하여 장기 운동 예측 성능을 향상시키기 위해.
  • 학습 가능한 그래프 기반 GRU를 통해 구조적 상태 전파를 모델링함으로써 자세 생성 성능을 향상시키기 위해.

제안 방법

  • 다양한 스케일(예: 손, 팔, 흉부 등)에서 신체 구성 요소를 노드로 표현하고, 스케일 내외의 관계를 모델링하는 동적 다중스케일 그래프 표현을 제안한다.
  • 스케일 별 특징 추출을 위한 단일스케일 그래프 컨볼루션 블록(SS-GCB)과 스케일 간 특징 전달 및 융합을 위한 크로스스케일 융합 블록(CS-FB)을 포함하는 다중스케일 그래프 계산 단위(MGCU)를 도입한다.
  • 네트워크 계층을 거쳐 진동하는 적응형이고 학습 가능한 그래프 구조를 사용하여, 훈련 중에 운동 민감도 구조적 관계를 학습할 수 있도록 한다.
  • CS-FB에서 상대적 특징 표현을 사용하여 스케일 간 특징 정렬 및 융합 성능을 향상시킨다.
  • 에코더와 디코더에서 고차 운동 차이(위치, 속도, 가속도)를 입력 특징으로 통합하여 시간 동적 특성을 풍부하게 한다.
  • 디코더에서 그래프 기반 게이트드 순환 단위(G-GRU)를 도입하여 학습 가능한 그래프 구조를 활용해 개선된 상태 전파를 통해 미래 자세를 생성한다.

실험 결과

연구 질문

  • RQ1동적이고 다중스케일 그래프 표현이 3D 인간 운동 예측을 위한 계층적 신체 부위 관계를 효과적으로 모델링할 수 있는가?
  • RQ2에코더의 끝에서만 융합하는 것과 비교해, 여러 단계에서 크로스스케일 특징 융합을 통합하면 장기 운동 예측 성능이 향상되는가?
  • RQ3고차 운동 차이(예: 속도, 가속도)가 그래프 기반 시퀀스 모델에서 예측 정확도에 어떤 영향을 미치는가?
  • RQ4감독 없이도 학습된 다중스케일 그래프가 행동 카테고리에 특화된 패턴을 얼마나 잘 포착할 수 있는가?
  • RQ5제안된 그래프 기반 GRU가 표준 RNN에 비해 시간적 모델링 및 자세 생성 성능을 향상시킬 수 있는가?

주요 결과

  • DMGNN은 Human 3.6M 및 CMU Mocap 데이터셋에서 최신 기준(SOTA) 성능을 달성하였으며, 0, 1, 2차 운동 차이를 사용할 경우 400ms에서 평균 절대 오차(MAE)가 0.27m를 기록하였다.
  • 두 개의 크로스스케일 융합 블록(CS-FBs)을 가진 모델이 가장 우수한 성능을 보였으며, 0, 1, 3개의 CS-FB를 가진 구성보다 특징 융합과 정보 중복 간의 최적 균형을 이룩하였다.
  • CS-FB에서 상대적 특징을 사용할 경우 비상대적 특징 대비 MAE가 최대 0.06m 감소하여, 스케일 간 정렬에 효과적임을 입증하였다.
  • 세 개의 스케일과 두 개의 CS-FB를 가진 최종 융합 계수 λ = 0.6이 가장 낮은 MAE를 기록하여 강건성과 최적의 스케일 통합을 입증하였다.
  • 두 번째 CS-FB에서 학습된 크로스스케일 그래프가 첫 번째 CS-FB보다 더 높은 분류 성능(40.1% 정확도)을 보이며, 더 깊은 기능적 구조 학습을 나타내었다.
  • DMGNN는 비교된 모든 방법 중에서 에코더 특징을 기반으로 가장 높은 행동 분류 정확도(45.7%)를 기록하여, 카테고리에 관계없이 구분 가능한 운동 표현을 학습할 수 있음을 확인하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.