QUICK REVIEW

[논문 리뷰] Dynamic Multiscale Graph Neural Networks for 3D Skeleton-Based Human Motion Prediction

Maosen Li, Siheng Chen|arXiv (Cornell University)|2020. 03. 17.

Human Pose and Action Recognition참고 문헌 49인용 수 29

한 줄 요약

이 논문은 3D 스켈레톤 기반 인간 운동 예측을 위한 동적 다중스케일 그래프 신경망(DMGNN)을 제안한다. 이는 다중 공간 스케일에서 계층적인 신체 부위 관계를 모델링하기 위해 적응형이고 동적인 다중스케일 그래프를 사용한다. 본 방법은 단일스케일 및 크로스스케일 그래프 컨볼루션을 포함하는 새로운 다중스케일 그래프 계산 단위(MGCU)와 디코더에서 그래프 기반 GRU를 결합하여, Human 3.6M 및 CMU Mocap 데이터셋에서 단기 및 장기 예측 모두에서 최신 기준(SOTA) 성능을 달성한다.

ABSTRACT

We propose novel dynamic multiscale graph neural networks (DMGNN) to predict 3D skeleton-based human motions. The core idea of DMGNN is to use a multiscale graph to comprehensively model the internal relations of a human body for motion feature learning. This multiscale graph is adaptive during training and dynamic across network layers. Based on this graph, we propose a multiscale graph computational unit (MGCU) to extract features at individual scales and fuse features across scales. The entire model is action-category-agnostic and follows an encoder-decoder framework. The encoder consists of a sequence of MGCUs to learn motion features. The decoder uses a proposed graph-based gate recurrent unit to generate future poses. Extensive experiments show that the proposed DMGNN outperforms state-of-the-art methods in both short and long-term predictions on the datasets of Human 3.6M and CMU Mocap. We further investigate the learned multiscale graphs for the interpretability. The codes could be downloaded from https://github.com/limaosen0/DMGNN.

연구 동기 및 목표

기존 방법이 이원적 관절 연결을 초월한 복잡한 기능적 신체 부위 관계를 모델링하는 데에 한계가 있음을 해결하기 위해.
국소적 및 전반적인 운동 역학을 모두 포착하는 계층적이고 다중스케일의 인간 신체 표현을 개발하기 위해.
행동 카테고리에 관계없이 운동 예측을 가능하게 하기 위해, 행동 레이블에 의존하지 않고도 구분 가능한 운동 민감도 그래프 구조를 학습하기 위해.
고차 운동 차이(속도, 가속도)를 입력 프록시로 통합하여 장기 운동 예측 성능을 향상시키기 위해.
학습 가능한 그래프 기반 GRU를 통해 구조적 상태 전파를 모델링함으로써 자세 생성 성능을 향상시키기 위해.

제안 방법

다양한 스케일(예: 손, 팔, 흉부 등)에서 신체 구성 요소를 노드로 표현하고, 스케일 내외의 관계를 모델링하는 동적 다중스케일 그래프 표현을 제안한다.
스케일 별 특징 추출을 위한 단일스케일 그래프 컨볼루션 블록(SS-GCB)과 스케일 간 특징 전달 및 융합을 위한 크로스스케일 융합 블록(CS-FB)을 포함하는 다중스케일 그래프 계산 단위(MGCU)를 도입한다.
네트워크 계층을 거쳐 진동하는 적응형이고 학습 가능한 그래프 구조를 사용하여, 훈련 중에 운동 민감도 구조적 관계를 학습할 수 있도록 한다.
CS-FB에서 상대적 특징 표현을 사용하여 스케일 간 특징 정렬 및 융합 성능을 향상시킨다.
에코더와 디코더에서 고차 운동 차이(위치, 속도, 가속도)를 입력 특징으로 통합하여 시간 동적 특성을 풍부하게 한다.
디코더에서 그래프 기반 게이트드 순환 단위(G-GRU)를 도입하여 학습 가능한 그래프 구조를 활용해 개선된 상태 전파를 통해 미래 자세를 생성한다.

실험 결과

연구 질문

RQ1동적이고 다중스케일 그래프 표현이 3D 인간 운동 예측을 위한 계층적 신체 부위 관계를 효과적으로 모델링할 수 있는가?
RQ2에코더의 끝에서만 융합하는 것과 비교해, 여러 단계에서 크로스스케일 특징 융합을 통합하면 장기 운동 예측 성능이 향상되는가?
RQ3고차 운동 차이(예: 속도, 가속도)가 그래프 기반 시퀀스 모델에서 예측 정확도에 어떤 영향을 미치는가?
RQ4감독 없이도 학습된 다중스케일 그래프가 행동 카테고리에 특화된 패턴을 얼마나 잘 포착할 수 있는가?
RQ5제안된 그래프 기반 GRU가 표준 RNN에 비해 시간적 모델링 및 자세 생성 성능을 향상시킬 수 있는가?

주요 결과

DMGNN은 Human 3.6M 및 CMU Mocap 데이터셋에서 최신 기준(SOTA) 성능을 달성하였으며, 0, 1, 2차 운동 차이를 사용할 경우 400ms에서 평균 절대 오차(MAE)가 0.27m를 기록하였다.
두 개의 크로스스케일 융합 블록(CS-FBs)을 가진 모델이 가장 우수한 성능을 보였으며, 0, 1, 3개의 CS-FB를 가진 구성보다 특징 융합과 정보 중복 간의 최적 균형을 이룩하였다.
CS-FB에서 상대적 특징을 사용할 경우 비상대적 특징 대비 MAE가 최대 0.06m 감소하여, 스케일 간 정렬에 효과적임을 입증하였다.
세 개의 스케일과 두 개의 CS-FB를 가진 최종 융합 계수 λ = 0.6이 가장 낮은 MAE를 기록하여 강건성과 최적의 스케일 통합을 입증하였다.
두 번째 CS-FB에서 학습된 크로스스케일 그래프가 첫 번째 CS-FB보다 더 높은 분류 성능(40.1% 정확도)을 보이며, 더 깊은 기능적 구조 학습을 나타내었다.
DMGNN는 비교된 모든 방법 중에서 에코더 특징을 기반으로 가장 높은 행동 분류 정확도(45.7%)를 기록하여, 카테고리에 관계없이 구분 가능한 운동 표현을 학습할 수 있음을 확인하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.