QUICK REVIEW

[논문 리뷰] Learn to Dance with AIST++: Music Conditioned 3D Dance Generation

Ruilong Li, Shan Yang|arXiv (Cornell University)|2021. 01. 21.

Human Pose and Action Recognition참고 문헌 65인용 수 46

한 줄 요약

이 논문은 깊이 있는 다중모달 트랜스포머와 미래-N에 대한 감독을 통한 전체 어텐션 메커니즘을 사용하여 음악 조건부 3D 댄스 생성을 위한 트랜스포머 기반 프레임워크를 제안한다. 이는 장거리 동작을 생성하고 동결을 방지한다. 주요 기여는 10개 장르에 걸쳐 110만 프레임의 3D 댄스 동작을 포함하는 AIST++ 데이터셋이며, 정성적 및 정량적 평가에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

In this paper, we present a transformer-based learning framework for 3D dance generation conditioned on music. We carefully design our network architecture and empirically study the keys for obtaining qualitatively pleasing results. The critical components include a deep cross-modal transformer, which well learns the correlation between the music and dance motion; and the full-attention with future-N supervision mechanism which is essential in producing long-range non-freezing motion. In addition, we propose a new dataset of paired 3D motion and music called AIST++, which we reconstruct from the AIST multi-view dance videos. This dataset contains 1.1M frames of 3D dance motion in 1408 sequences, covering 10 genres of dance choreographies and accompanied with multi-view camera parameters. To our knowledge it is the largest dataset of this kind. Rich experiments on AIST++ demonstrate our method produces much better results than the state-of-the-art methods both qualitatively and quantitatively.

연구 동기 및 목표

고정밀도의 음악 조건부 3D 댄스 동작을 생성하기 위한 학습 프레임워크를 개발하기 위해.
음악의 리듬과 구조와 부합하면서도 장거리 동작을 생성하고 동결 현상을 방지하는 도전 과제를 해결하기 위해.
훈련 및 평가를 위해 사용할 수 있는 대규모 다중 시점, 다중 장르의 쌍화된 3D 운동과 음악 데이터셋을 구축하기 위해.
깊이 있는 트랜스포머 아키텍처를 통해 음성과 운동 간의 다중모달 정렬을 향상시키기 위해.
정량적 및 정성적 평가를 통해 음악 조건부 3D 운동 생성의 새로운 벤치마크를 설정하기 위해.

제안 방법

깊이 있는 다중모달 트랜스포머를 사용하여 음악과 3D 운동 표현 간의 복잡한 종속성을 모델링한다.
전체 어텐션과 미래-N에 대한 감독 메커니즘은 훈련 중에 향후 운동 토큰에 주목함으로써 장기적 시간적 모델링을 가능하게 한다.
AIST++ 데이터셋은 다중 시점 AIST 영상에서 3D 인간 자세 추정을 통해 재구성되며, 운동과 카메라 파라미터를 유지한다.
운동 시퀀스는 리듬 일관성과 역동적 변동성을 유지하기 위해 시간적 모델링을 통해 인코딩된다.
음악 특징은 트랜스포머 내의 크로스 어텐션 메커니즘을 통해 운동 임베딩과 정렬된다.
손실 함수를 통해 운동의 현실감과 음악 일치도를 증진시키며, 모델은 음성 입력에 조건부로 3D 댄스 시퀀스를 엔드 투 엔드로 훈련한다.

실험 결과

연구 질문

RQ1트랜스포머 기반 아키텍처가 음악과 3D 댄스 동작 간의 다중모달 종속성을 효과적으로 학습할 수 있는가?
RQ2미래-N 감독은 장거리 운동 생성을 향상시키고 동결 현상을 방지하는 데 어떻게 기여하는가?
RQ3AIST++ 데이터셋의 규모와 다양성은 기존 데이터셋에 비해 생성 품질을 얼마나 향상시키는가?
RQ4정성적 및 정량적 지표에서 제안된 방법은 최신 기술 수준의 접근법과 비교해 어떻게 성과를 내는가?
RQ5깊이 있는 다중모달 트랜스포머는 춤의 리듬적 및 스타일적 뉘앙스를 어떻게 포착하는가?

주요 결과

제안된 방법은 AIST++ 데이터셋에서 최신 기술 수준의 성능을 달성하여 정성적 및 정량적 평가에서 기존 방법을 능가한다.
전체 어텐션과 미래-N 감독 메커니즘은 동결 현상을 크게 줄이고 장기적 시간적 일관성을 향상시킨다.
깊이 있는 다중모달 트랜스포머는 음악과 운동 간의 복잡한 상관관계를 효과적으로 포착하여 표현력 있고 리듬에 부합하는 댄스 시퀀스를 가능하게 한다.
1408개의 시퀀스와 10개의 댄스 장르를 포함하는 110만 프레임의 AIST++ 데이터셋은 향후 연구를 위한 풍부하고 다양한 벤치마크를 제공한다.
정량적 결과는 이전 작업에 비해 우수한 운동의 현실감, 음악 일치도, 다양성을 보여주지만, 제공된 텍스트에는 구체적인 지표가 기재되어 있지 않다.
모델은 다양한 반복 없이 스타일적으로 적절한 댄스 동작을 생성하며, 다양한 장르의 음악 입력과 부합한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.