QUICK REVIEW

[논문 리뷰] History Repeats Itself: Human Motion Prediction via Motion Attention

Wei Mao, Miaomiao Liu|arXiv (Cornell University)|2020. 07. 23.

Human Pose and Action Recognition참고 문헌 31인용 수 30

한 줄 요약

이 논문은 과거 motion subsequences에서 모션 어텐션을 사용하고, DCT로 인코딩한 상태의 어텐션 기반 feed-forward 모델이 미래의 인간 자세를 예측한 다음 GCN 예측기를 통해 예측하는 방법을 제시한다. 이 모델은 Human3.6M, AMASS, 3DPW에서 최첨단 성능을 달성한다.

ABSTRACT

Human motion prediction aims to forecast future human poses given a past motion. Whether based on recurrent or feed-forward neural networks, existing methods fail to model the observation that human motion tends to repeat itself, even for complex sports actions and cooking activities. Here, we introduce an attention-based feed-forward network that explicitly leverages this observation. In particular, instead of modeling frame-wise attention via pose similarity, we propose to extract motion attention to capture the similarity between the current motion context and the historical motion sub-sequences. Aggregating the relevant past motions and processing the result with a graph convolutional network allows us to effectively exploit motion patterns from the long-term history to predict the future poses. Our experiments on Human3.6M, AMASS and 3DPW evidence the benefits of our approach for both periodical and non-periodical actions. Thanks to our attention model, it yields state-of-the-art results on all three datasets. Our code is available at https://github.com/wei-mao-2019/HisRepItself.

연구 동기 및 목표

인간의 모션이 긴 시간 스케일에 걸쳐 반복되는 경향이 있다는 한계를 동기화하고 이를 해결한다.
정적 프레임이 아닌 모션 서브시퀀스에서 작동하는 어텐션 메커니즘을 개발한다.
장기적인 과거 모션 패턴을 활용하여 단기 및 장기 예측의 성능을 향상시킨다.
모션 어텐션을 그래프 컨볼루션 네트워크(GCN)와 결합하여 관절 간의 공간 의존성을 모델링한다.
여러 데이터셋과 동작 유형에 걸쳐 일반화 가능성을 입증한다.

제안 방법

과거 모션을 서브시퀀스의 시퀀스로 표현하고 각각을 이산 코사인 변환(DCT)으로 인코딩한다.
쿼리를 가장 최근에 관찰된 서브시퀀스로 정의하고 키/값은 역사적 서브시퀀스와 그들의 DCT 인코딩된 미래로 정의한다.
쿼리와 키 간의 닷 프로덕트를 정규화하여 어텐션을 계산하고, 해당하는 DCT 값을 집계해 모션 컨텍스트 벡터를 형성한다.
모션 컨텍스트 벡터를 최신 관찰 모션과 결합하고 이를 GCN 기반 예측기에 입력하여 공간-시간 의존성을 모델링한다.
DCT 도메인에서 잔차를 예측하고 역 DCT를 적용하여 좌표나 각도를 얻어 미래 자세를 예측한다.
약 3.4M 파라미터를 갖는 두 모듈 파이프라인(모션 어텐션 plus predictor)을 사용한다.

실험 결과

연구 질문

RQ1모션 어텐션을 통해 역사적 모션 서브시퀀스를 활용하는 것이 프레임 기반 어텐션이나 기존 방법에 비해 단기 및 장기 예측을 모두 개선하는가?
RQ2모션 어텐션을 통한 장기 반복 모션 패턴의 활용이 데이터셋(H3.6M, AMASS, 3DPW) 및 동작 유형 전반에 일반화되는가?
RQ3DCT로 인코딩된 모션 이력과 GCN 예측기를 통합하는 것이 서로 다른 시점(horizons)에서 예측 품질과 안정성에 어떤 영향을 미치는가?

주요 결과

제안된 모션 어텐션 모델은 3D 좌표와 관절 각도 모두에 대해 단기 및 장기 시점에서 세 데이터세트 모두에서 최첨단 성과를 달성했다.
모션 어텐션은 관련된 과거 모션 서브시퀀스를 집계하여 짧은 히스토리를 넘어 장기 반복 패턴의 효과적인 활용을 가능하게 한다.
하나의 통합 모델이 서로 다른 시점에 대해 별도의 모델 없이도 단기 및 장기 예측을 모두 처리할 수 있다.
이 접근법은 데이터셋(H3.6M, AMASS, 3DPW) 간 강력한 일반화를 보여주며, 명확한 반복 이력이 있는 동작에서 특히 효과적이다.
모델은 여전히 컴팩트하고(~3.4M 파라미터) softmax 없이 단순한 어텐션 메커니즘을 사용하여 그래디언트 문제를 완화한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.