QUICK REVIEW

[논문 리뷰] Auto-Conditioned Recurrent Networks for Extended Complex Human Motion Synthesis

Zimo Li, Yi Zhou|arXiv (Cornell University)|2017. 07. 17.

Human Pose and Action Recognition인용 수 150

한 줄 요약

이 논문은 긴, 다양하고 복잡한 인간 동작 합성을 가능하게 하는 자동 조건화 RNN(acRNN)을 제안하여 오차 누적을 완화하고 수백 초의 동작을 생성한다.

ABSTRACT

We present a real-time method for synthesizing highly complex human motions using a novel training regime we call the auto-conditioned Recurrent Neural Network (acRNN). Recently, researchers have attempted to synthesize new motion by using autoregressive techniques, but existing methods tend to freeze or diverge after a couple of seconds due to an accumulation of errors that are fed back into the network. Furthermore, such methods have only been shown to be reliable for relatively simple human motions, such as walking or running. In contrast, our approach can synthesize arbitrary motions with highly complex styles, including dances or martial arts in addition to locomotion. The acRNN is able to accomplish this by explicitly accommodating for autoregressive noise accumulation during training. Our work is the first to our knowledge that demonstrates the ability to generate over 18,000 continuous frames (300 seconds) of new complex human motion w.r.t. different styles.

연구 동기 및 목표

걷기/달리기를 넘어서는 고도로 복잡한 인간 동작의 생성 가능성 및 동기 부여를 제공.
자기회귀 모션 생성에서의 오차 누적 문제를 다룬다.
다양한 스타일에 걸친 긴 시야의 합성(수백 초) 시연을 보인다.

제안 방법

네트워크가 과거 출력 자체를 입력으로 사용하도록 학습하는 acRNN(자동 조건화)을 도입한다.
조건 길이 u와 생성 길이 v를 사용하여 훈련 중 ground-truth 프레임과 함께 v 예측 프레임을 피드한다.
모션 데이터를 상대 관절 변위(루트 모션 및 관절 위치)로 표현하여 일관된 주기성을 포착한다.
ADAM으로 500k 반복에 걸쳐 길이 100의 시퀀스에서 메모리 크기 1024의 세 개의 완전 연결층을 가진 acLSTM을 학습한다.
CMU 모션 캡처 하위 집합에서 유클리드 손실로 바탕으로 여러 베이스라인(LSTM, ERD, seq2seq, 스케줄링 샘플링)과 비교 평가한다.

실험 결과

연구 질문

RQ1acRNN이 멈춤 없이 춤, 무술 등 스타일이 다양한 무한히 길고 실감나는 모션을 생성할 수 있는가?
RQ2자동 조건화가 표준 RNN 학습에 비해 장거리 모션 안정성과 실감도에 어떤 영향을 미치는가?
RQ3다른 조건 길이가 짧은 예측 오차 및 장기 모션 연속성에 어떤 Trade-off가 있는가?
RQ4acRNN가 기존 베이스라인에 비해 다양한 모션 스타일에서 어떻게 성능을 발휘하는가?

주요 결과

acLSTM은 수백 초(예: 결과에 300초 이상) 동안 프레임이 중단되지 않고 모션을 생성한다.
acLSTM은 Indian dance 및 martial arts 등 여러 스타일에서 짧은-중간-장기 예측 오차를 더 낮게 달성한다.
바닐라 LSTM은 약 60 프레임 이후 정지하는 경향이 있지만, acLSTM은 지속적으로 다양한 모션을 유지한다.
ERD 및 seq2seq와 비교 시 acLSTM이 더 긴 지속가능한 타당한 모션을 제공하지만 모든 방법에서 아주 긴 시야에서는 인간 모션의 확률적 특성으로 인해 오차 증가한다.
다른 스타일의 데이터를 혼합하면 두 스타일의 특징을 가지는 하이브리드 모션이 생성된다.
모션 시퀀스는 약 60fps로 생성될 수 있으며, 50초 이상 합성 출력의 예시가 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.