QUICK REVIEW

[논문 리뷰] Human Motion Modeling using DVGANs

Xiao Lin, Mohamed R. Amer|arXiv (Cornell University)|2018. 04. 27.

Human Pose and Action Recognition참고 문헌 32인용 수 42

한 줄 요약

DVGANs는 텍스트 설명에 조건된 밀집 검증 Wasserstein GAN 프레임워크를 사용하여 인간 모션 생성 및 완료를 수행하며, CNN과 RNN 생성기 및 텍스트 설명에 조건된 다중 해상도 밀집 판별기를 활용합니다. 이 모델은 긴 다양하고 현실적인 모션 시퀀스를 달성하고 CMU Mocap 및 Human3.6M에서 inception scores와 retrieval metrics로 벤치마킹합니다.

ABSTRACT

We present a novel generative model for human motion modeling using Generative Adversarial Networks (GANs). We formulate the GAN discriminator using dense validation at each time-scale and perturb the discriminator input to make it translation invariant. Our model is capable of motion generation and completion. We show through our evaluations the resiliency to noise, generalization over actions, and generation of long diverse sequences. We evaluate our approach on Human 3.6M and CMU motion capture datasets using inception scores.

연구 동기 및 목표

처음부터 긴 다양하고 현실적인 인간 모션을 생성하고 모션 완성을 다룬 도전을 동기화하고 해결한다.
CNN/RNN 생성기를 다중 해상도 CNN 판별기로 결합한 DVGANs 아키텍처를 제안한다.
모션 생성을 텍스트 설명에 조건화하여 제로샷 또는 보지 못한 동작에 대한 가능성을 열어준다.
노이즈에 대한 강건성과 단기 예측을 넘는 긴 시퀀스 생성을 보여준다.
대규모 모션 캡처 데이터셋에서 생성 품질과 검색 정합성을 벤치마크한다.

제안 방법

DVGANs 도입, 생성기와 판별기에 CNN 및 RNN 구성요소를 결합한다.
안정적인 학습을 위해 WGAN-GP를 사용한다.
고정된 클래스 레이블이 아닌 텍스트 설명으로 생성기와 판별기를 조건화한다.
판별기에서 다중 시점 해상도에서 촘촘한 검증을 구현하여 인공물 감지력을 높인다.
입력 시퀀스를 평행이동 불변을 강제하는 데이터 증강을 도입한다.
생성기 두 가지 변형을 제공: 생성 및 완성을 위한 RNN 기반 생성기와 저프레임 속도 애니메이션의 점진적 업샘플링을 통한 CNN 기반 생성기.
비디오와 텍스트를 인코딩하고 다중 해상도 검증 점수를 사용하는 CNN 기반 판별기를 구성한다.
L2 정규화 최적화와 Lipschitz 제약을 적용해 학습하고, 최종 컷 메커니즘으로 고정 길이 출력을 생성한다.

실험 결과

연구 질문

RQ1DVGANs가 seed 프레임 없이 텍스트 설명에서 길고 다양하며 현실적인 인간 모션 시퀀스를 생성할 수 있는가?
RQ2판별기의 다중 해상도 검증이 생성 품질과 안정성에 어떤 영향을 미치는가?
RQ3텍스트 조건화가 보지 못한 동작으로의 일반화와 모션 완성 향상에 기여하는가?
RQ4데이터 증강과 최종 컷 샘플링이 생성 및 검색 지표에 어떤 영향을 미치는가?
RQ5CNN과 RNN 생성기 아키텍처 간 모션 생성 및 완료 작업에서의 비교는 어떠한가?

주요 결과

DVGANs는 긴 고품질 모션 생성 및 모션 완료를 수행할 수 있다.
밀집한 시간 해상도 검증은 단일 층 검증에 비해 inception scores와 retrieval metrics를 향상시킨다.
데이터 증강과 최종 컷 전략은 검색 정확도에서 추가 이점을 제공한다.
CNN 기반 생성기가 일반적으로 더 높은 inception scores와 강한 생성 능력을 보여주는 반면, RNN 기반 생성기는 모션 완성에 탁월하다.
CMU Mocap과 Human3.6M에 대한 실험은 현실적이고 다양한 모션과 모델이 동작 간, 보지 못한 작업까지 일반화하는 능력을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.