QUICK REVIEW

[论文解读] Listen to Dance: Music-driven choreography generation using Autoregressive Encoder-Decoder Network

Juheon Lee, Seohyun Kim|arXiv (Cornell University)|Nov 2, 2018

Music and Audio Processing参考文献 5被引用 37

一句话总结

本文提出了一种基于自回归编码器-解码器网络的音乐驱动编舞生成系统，该网络在从YouTube获取的音视频配对数据上进行训练。模型通过编码音乐（梅尔频谱图）和骨骼运动（2D关节点坐标），然后自回归地预测未来的运动帧，从而生成新颖、自然且与音乐同步的舞蹈动作，在用户研究和自相关性分析中均表现出色。

ABSTRACT

Automatic choreography generation is a challenging task because it often requires an understanding of two abstract concepts - music and dance - which are realized in the two different modalities, namely audio and video, respectively. In this paper, we propose a music-driven choreography generation system using an auto-regressive encoder-decoder network. To this end, we first collect a set of multimedia clips that include both music and corresponding dance motion. We then extract the joint coordinates of the dancer from video and the mel-spectrogram of music from audio, and train our network using music-choreography pairs as input. Finally, a novel dance motion is generated at the inference time when only music is given as an input. We performed a user study for a qualitative evaluation of the proposed method, and the results show that the proposed model is able to generate musically meaningful and natural dance movements given an unheard song.

研究动机与目标

为解决在不依赖现有动作数据库的前提下生成新颖、具有音乐意义的舞蹈编排的挑战。
在序列到序列框架中学习音频（音乐）与视觉（舞蹈动作）模态之间复杂且非刚性的关系。
实现仅基于音乐输入的自回归生成，无需动作检索或类型分类，即可生成新颖的舞蹈序列。
评估生成的编排是否反映音乐的周期性，并被人类观察者认为自然且贴合。

提出的方法

该模型采用双编码器与自回归解码器架构，结合因果扩张高速公路卷积块（CDHC）以处理时间序列。
音频通过梅尔频谱图特征进行编码，而视频中的2D关节点坐标则用作动作表征。
CDHC模块应用具有递增感受野（扩张因子：1,3,9,27,1,3,9,27,3,3）的门控扩张卷积，以捕捉长距离依赖关系。
解码器逐步生成动作帧，条件依赖于编码后的音频和骨骼表征，确保自回归生成过程。
网络在从YouTube收集的音乐-舞蹈片段配对数据上进行端到端训练，使用序列到序列预测损失。
提出一种新型推理流程，仅通过音频输入即可从未经见过的音乐生成动作序列。

实验结果

研究问题

RQ1自回归神经网络能否仅从音乐输入生成新颖且外观自然的舞蹈编排？
RQ2生成的编排是否反映音乐的周期性特征，例如节拍对齐？
RQ3与基线方法相比，该模型在未见音乐上的泛化能力如何？
RQ4人类参与者能否区分出该模型生成的编排在音乐上具有连贯性且自然？

主要发现

用户研究表明，与随机动作相比，生成的编排在自然度和音乐契合度方面得分显著更高，配对比较的p值小于0.001。
用户对生成组在自然度和音乐契合度两个维度上的平均评分均超过随机组，表明其感知到音乐上的对齐。
自相关性分析证实，生成的动作表现出与音乐节拍对齐的周期性模式，尤其在y方向运动中表现明显。
动作自相关性的峰值与音乐节拍位置相匹配，表明模型成功学习了音乐节奏的反映。
该模型成功生成了训练数据中未出现过的全新编排，避免了对动作数据库检索的依赖。
在泛化能力方面，该模型优于先前方法，避免了早期方法在数据有限时出现的过拟合问题。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。