Skip to main content
QUICK REVIEW

[논문 리뷰] Listen to Dance: Music-driven choreography generation using Autoregressive Encoder-Decoder Network

Juheon Lee, Seohyun Kim|arXiv (Cornell University)|2018. 11. 02.
Music and Audio Processing참고 문헌 5인용 수 37
한 줄 요약

이 논문은 유튜브에서 유도된 오디오-비디오 쌍을 기반으로 훈련된 자동회귀형 인코더-디코더 네트워크를 사용하여 음악 기반 무용 생성 시스템을 제안한다. 모델은 음악(멜스펙트로그램)과 스켈레톤 운동(2D 관절 좌표)을 인코딩한 후 향후 운동 프레임을 자동으로 회귀적으로 예측함으로써 새로운, 자연스럽고 음악과 동기화된 무용 운동을 학습한다. 사용자 연구와 자율상관분석에서 뛰어난 성능을 기록하였다.

ABSTRACT

Automatic choreography generation is a challenging task because it often requires an understanding of two abstract concepts - music and dance - which are realized in the two different modalities, namely audio and video, respectively. In this paper, we propose a music-driven choreography generation system using an auto-regressive encoder-decoder network. To this end, we first collect a set of multimedia clips that include both music and corresponding dance motion. We then extract the joint coordinates of the dancer from video and the mel-spectrogram of music from audio, and train our network using music-choreography pairs as input. Finally, a novel dance motion is generated at the inference time when only music is given as an input. We performed a user study for a qualitative evaluation of the proposed method, and the results show that the proposed model is able to generate musically meaningful and natural dance movements given an unheard song.

연구 동기 및 목표

  • 기존의 운동 데이터베이스에 의존하지 않고 새로운, 음악적으로 의미 있는 춤 무용을 생성하는 데 도전한다.
  • 시퀀스-투-시퀀스 프레임워크 내에서 오디오(음악)와 시각적(무용 운동) 모odal 간의 복잡한 비정규적 관계를 학습한다.
  • 운동 데이터 검색이나 장르 분류 없이 오직 음악 입력에 조건화된 자동회귀적 방식으로 새로운 춤 시퀀스를 생성할 수 있도록 한다.
  • 생성된 무용이 음악의 주기성과 인간 관찰자에게 자연스럽고 적합하다고 인식되는지 평가한다.

제안 방법

  • 모델는 인과적 확장된 하이웨이 컨volution 블록(CDHC)을 사용한 이중 인코더와 자동회귀적 디코더 아키텍처를 채택하여 시간적 시퀀스를 처리한다.
  • 오디오는 멜스펙트로그램 특징를 통해 인코딩되며, 비디오에서 유도된 2D 관절 좌표가 운동 표현으로 사용된다.
  • CDHC 블록은 점차 증가하는 수신장(확장 요소: 1,3,9,27,1,3,9,27,3,3)을 가진 게이팅된 확장 컨볼루션을 적용하여 장거리 의존성을 포착한다.
  • 디코더는 인코딩된 오디오와 스켈레톤 표현에 조건화되어 단계적으로 운동 프레임을 생성함으로써 자동회귀적 생성을 보장한다.
  • 네트워크는 유튜브에서 수집한 음악-무용 클립 쌍을 기반으로 시퀀스-투-시퀀스 예측 손실을 사용하여 엔드 투 엔드로 훈련된다.
  • 새로운 음악에 대해 오직 오디오 입력에 조건화된 새로운 추론 파이프라인을 통해 운동 시퀀스를 생성한다.

실험 결과

연구 질문

  • RQ1자기회귀 신경망은 오직 음악 입력만으로 새로운, 자연스러운 무용 무용을 생성할 수 있는가?
  • RQ2생성된 무용은 비트 정렬과 같은 음악의 주기성과 반영되는가?
  • RQ3기존의 방법들과 비교해 볼 때, 모델은 새로운 음악에 대해 얼마나 잘 일반화되는가?
  • RQ4사용자 참여자들은 모델이 생성한 무용이 음악적으로 일관되고 자연스럽다고 인식할 수 있는가?

주요 결과

  • 사용자 연구 결과, 랜덤 운동보다 생성된 무용이 자연스러움과 음악과의 부합성에서 유의미하게 높은 점수를 받았으며, 짝지어진 비교에서 p < 0.001이었다.
  • 생성 그룹의 평균 사용자 점수가 자연스러움과 음악 부합성 양 측면에서 랜덤 그룹을 초월하여, 음악적 일치성이 인지된 것으로 나타났다.
  • 자기상관분석을 통해 생성된 운동이 음악 비트와 정렬된 주기적 패턴을 보임을 확인했으며, 특히 y방향 운동에서 두드러졌다.
  • 운동 자기상관의 피크가 음악의 비트 위치와 일치하여, 모델이 음악 리듬을 반영하는 것을 학습했다는 것을 입증했다.
  • 훈련 데이터에 존재하지 않는 새로운 무용을 성공적으로 생성하여 운동 데이터베이스 검색 의존도를 피했다.
  • 제한된 데이터로 이전 방법들이 겪었던 과적합 문제를 피하며, 일반화 성능에서 이전 방법들을 능가했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.