QUICK REVIEW

[논문 리뷰] Listen to Dance: Music-driven choreography generation using Autoregressive Encoder-Decoder Network

Juheon Lee, Seohyun Kim|arXiv (Cornell University)|2018. 11. 02.

Music and Audio Processing참고 문헌 5인용 수 37

한 줄 요약

이 논문은 유튜브에서 유도된 오디오-비디오 쌍을 기반으로 훈련된 자동회귀형 인코더-디코더 네트워크를 사용하여 음악 기반 무용 생성 시스템을 제안한다. 모델은 음악(멜스펙트로그램)과 스켈레톤 운동(2D 관절 좌표)을 인코딩한 후 향후 운동 프레임을 자동으로 회귀적으로 예측함으로써 새로운, 자연스럽고 음악과 동기화된 무용 운동을 학습한다. 사용자 연구와 자율상관분석에서 뛰어난 성능을 기록하였다.

ABSTRACT

Automatic choreography generation is a challenging task because it often requires an understanding of two abstract concepts - music and dance - which are realized in the two different modalities, namely audio and video, respectively. In this paper, we propose a music-driven choreography generation system using an auto-regressive encoder-decoder network. To this end, we first collect a set of multimedia clips that include both music and corresponding dance motion. We then extract the joint coordinates of the dancer from video and the mel-spectrogram of music from audio, and train our network using music-choreography pairs as input. Finally, a novel dance motion is generated at the inference time when only music is given as an input. We performed a user study for a qualitative evaluation of the proposed method, and the results show that the proposed model is able to generate musically meaningful and natural dance movements given an unheard song.

연구 동기 및 목표

기존의 운동 데이터베이스에 의존하지 않고 새로운, 음악적으로 의미 있는 춤 무용을 생성하는 데 도전한다.
시퀀스-투-시퀀스 프레임워크 내에서 오디오(음악)와 시각적(무용 운동) 모odal 간의 복잡한 비정규적 관계를 학습한다.
운동 데이터 검색이나 장르 분류 없이 오직 음악 입력에 조건화된 자동회귀적 방식으로 새로운 춤 시퀀스를 생성할 수 있도록 한다.
생성된 무용이 음악의 주기성과 인간 관찰자에게 자연스럽고 적합하다고 인식되는지 평가한다.

제안 방법

모델는 인과적 확장된 하이웨이 컨volution 블록(CDHC)을 사용한 이중 인코더와 자동회귀적 디코더 아키텍처를 채택하여 시간적 시퀀스를 처리한다.
오디오는 멜스펙트로그램 특징를 통해 인코딩되며, 비디오에서 유도된 2D 관절 좌표가 운동 표현으로 사용된다.
CDHC 블록은 점차 증가하는 수신장(확장 요소: 1,3,9,27,1,3,9,27,3,3)을 가진 게이팅된 확장 컨볼루션을 적용하여 장거리 의존성을 포착한다.
디코더는 인코딩된 오디오와 스켈레톤 표현에 조건화되어 단계적으로 운동 프레임을 생성함으로써 자동회귀적 생성을 보장한다.
네트워크는 유튜브에서 수집한 음악-무용 클립 쌍을 기반으로 시퀀스-투-시퀀스 예측 손실을 사용하여 엔드 투 엔드로 훈련된다.
새로운 음악에 대해 오직 오디오 입력에 조건화된 새로운 추론 파이프라인을 통해 운동 시퀀스를 생성한다.

실험 결과

연구 질문

RQ1자기회귀 신경망은 오직 음악 입력만으로 새로운, 자연스러운 무용 무용을 생성할 수 있는가?
RQ2생성된 무용은 비트 정렬과 같은 음악의 주기성과 반영되는가?
RQ3기존의 방법들과 비교해 볼 때, 모델은 새로운 음악에 대해 얼마나 잘 일반화되는가?
RQ4사용자 참여자들은 모델이 생성한 무용이 음악적으로 일관되고 자연스럽다고 인식할 수 있는가?

주요 결과

사용자 연구 결과, 랜덤 운동보다 생성된 무용이 자연스러움과 음악과의 부합성에서 유의미하게 높은 점수를 받았으며, 짝지어진 비교에서 p < 0.001이었다.
생성 그룹의 평균 사용자 점수가 자연스러움과 음악 부합성 양 측면에서 랜덤 그룹을 초월하여, 음악적 일치성이 인지된 것으로 나타났다.
자기상관분석을 통해 생성된 운동이 음악 비트와 정렬된 주기적 패턴을 보임을 확인했으며, 특히 y방향 운동에서 두드러졌다.
운동 자기상관의 피크가 음악의 비트 위치와 일치하여, 모델이 음악 리듬을 반영하는 것을 학습했다는 것을 입증했다.
훈련 데이터에 존재하지 않는 새로운 무용을 성공적으로 생성하여 운동 데이터베이스 검색 의존도를 피했다.
제한된 데이터로 이전 방법들이 겪었던 과적합 문제를 피하며, 일반화 성능에서 이전 방법들을 능가했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.