QUICK REVIEW

[논문 리뷰] Learning Human Motion Models for Long-term Predictions

Partha Ghosh, Jie Song|arXiv (Cornell University)|2017. 04. 10.

Human Pose and Action Recognition참고 문헌 32인용 수 19

한 줄 요약

이 논문은 시간적 모델링을 위한 3층 LSTM과 결합된 드롭아웃 기반 오토인코더를 사용하는 새로운 아키텍처인 드롭아웃 오토인코더 LSTM(DAE-LSTM)을 제안한다. 이는 결측한 관절을 복원함으로써 유착된 공간적 구조를 암묵적으로 학습한다. 이 방법은 주기적인 운동에서 10초 이상, 비주기적인 운동에서 2초 이상 자연스럽고 드리프트 없는 시퀀스를 생성함으로써 장기적인 운동 예측에서 최신 기술 수준을 달성하였으며, 새로운 동작 분류기 기반 평가 프로토콜을 통해 검증되었다.

ABSTRACT

We propose a new architecture for the learning of predictive spatio-temporal motion models from data alone. Our approach, dubbed the Dropout Autoencoder LSTM, is capable of synthesizing natural looking motion sequences over long time horizons without catastrophic drift or motion degradation. The model consists of two components, a 3-layer recurrent neural network to model temporal aspects and a novel auto-encoder that is trained to implicitly recover the spatial structure of the human skeleton via randomly removing information about joints during training time. This Dropout Autoencoder (D-AE) is then used to filter each predicted pose of the LSTM, reducing accumulation of error and hence drift over time. Furthermore, we propose new evaluation protocols to assess the quality of synthetic motion sequences even for which no ground truth data exists. The proposed protocols can be used to assess generated sequences of arbitrary length. Finally, we evaluate our proposed method on two of the largest motion-capture datasets available to date and show that our model outperforms the state-of-the-art on a variety of actions, including cyclic and acyclic motion, and that it can produce natural looking sequences over longer time horizons than previous methods.

연구 동기 및 목표

손으로 설계한 공간-시간 그래프에 의존하지 않고 다양한 인간 동작에 일반화되는 데이터 기반의 공간-시간 운동 예측 모델을 개발하는 것.
공간 복원과 시간적 모델링을 분리함으로써 장기적인 운동 예측에서의 드리프트와 품질 저하 문제를 해결하는 것.
장기 예측 수평에서 합성 운동 시퀀스의 자연스러움과 일관성을 정량화하는 새로운 평가 프로토콜을 제안하는 것.
대규모 운동 캡처 데이터셋에서 최신 기술 수준의 방법들과 비교해 장기적인 운동 예측 성능을 뛰어나게 보여주는 것.

제안 방법

모델은 인간 운동 시퀀스의 시간적 의존성을 모델링하기 위해 3층 LSTM을 사용하며, 이전의 역사 기반으로 다음 자세를 예측한다.
드롭아웃 오토인코더(DAE)는 훈련 중에 전체 관절 위치를 무작위로 제거함으로써 전체 뼈대 자세를 복원하도록 훈련된다. 이는 네트워크가 공간적 관계를 유추하도록 강제한다.
DAE는 예측된 각 자세를 디노이징하는 포즈 필터 역할을 하며, 이는 시간이 지남에 따라 누적되는 오차와 드리프트를 줄인다.
공간적 구조 학습(DAE를 통한)과 시간적 시퀀스 모델링(LSTM을 통한)을 분리함으로써 일반화 및 안정성을 향상시킨다.
사전 훈련된 동작 분류기가 새로운 평가 지표로 사용된다: 동일한 동작 레이블을 오랫동안 올바르게 분류할수록 더 높은 품질의 자연스러운 운동 시퀀스를 의미한다.
이 방법은 관절 각도 표현을 차원 감소 없이 직접 사용하여 H3.6M 및 Holden 운동 캡처 데이터셋에서 훈련 및 평가된다.

실험 결과

연구 질문

RQ1딥 러닝 모델이 명시적인 그래프 감독 없이 훈련 중 관절 드롭아웃을 통해 공간적 뼈대 구조를 암묵적으로 학습할 수 있는가?
RQ2공간 복원과 시간적 모델링을 분리함으로써 인간 운동 생성에서 장기적인 예측 드리프트를 줄일 수 있는가?
RQ3동작 분류기가 장기 수평의 합성 운동 시퀀스의 자연스러움을 평가하는 데 신뢰할 수 있고 인간 평가와 관련된 지표로 사용될 수 있는가?
RQ4제안된 DAE-LSTM 모델은 주기적 및 비주기적 동작 모두에서 최신 기술 수준의 방법들과 비교해 장기적인 운동 예측에서 어떻게 성능을 발휘하는가?

주요 결과

DAE-LSTM 모델은 주기적인 운동(예: 걷기)에서 10초 이상, 비주기적인 운동(예: 식사)에서 2초 이상 자연스럽고 보기에 자연스러운 운동 시퀀스를 생성하며, 이는 이전 방법들에 비해 장기적 안정성에서 뚜렷한 승리를 거두었다.
H3.6M 및 Holden 데이터셋에서 DAE-LSTM은 단기 및 장기 수평 예측 정확도 측면에서 3층 LSTM 베이스라인과 두 개의 최신 기술 수준 모델(ERD 등)을 모두 초월하였다.
동작 분류기 평가 프로토콜은 고급도의 일관성 있는 운동 시퀀스와 열악하거나 드리프트가 발생한 시퀀스를 효과적으로 구분하였으며, 걷기 시퀀스에서 DAE-LSTM은 10초 이상 정확한 동작 클래스 확률을 유지하였다.
식사 활동에 대해서는 초기에는 '앉기'와 혼동하지만, 손 움직임이 두드러지게 나타나면 정확히 '식사'로 분류됨을 보여주어 운동 역학에 민감함을 보였다.
모델은 최소한의 드리프트를 유지하며 인지적으로 타당한 운동을 생성하지만, 약간의 뒤로 기울임이 발생하는 것으로 보아 중력이나 균형 제약 조건이 없어 물리적 현실성에 약간의 결여가 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.