QUICK REVIEW

[論文レビュー] Listen to Dance: Music-driven choreography generation using Autoregressive Encoder-Decoder Network

Juheon Lee, Seohyun Kim|arXiv (Cornell University)|Nov 2, 2018

Music and Audio Processing参考文献 5被引用数 37

ひとこと要約

本論文では、YouTubeから抽出された音声・映像ペアを用いて学習した自己回帰的エンコーダデコーダーニューラルネットワークを用いて、音楽駆動型の振り付け生成システムを提案する。モデルは音楽（メルスペクトログ램）とスケルトン運動（2次元ジョイント座標）をエンコードし、将来の運動フレームを自己回帰的に予測することで、新規で自然で音楽に同期したダンス動作を生成する。ユーザー評価と自己相関解析の両方で優れた性能を示した。

ABSTRACT

Automatic choreography generation is a challenging task because it often requires an understanding of two abstract concepts - music and dance - which are realized in the two different modalities, namely audio and video, respectively. In this paper, we propose a music-driven choreography generation system using an auto-regressive encoder-decoder network. To this end, we first collect a set of multimedia clips that include both music and corresponding dance motion. We then extract the joint coordinates of the dancer from video and the mel-spectrogram of music from audio, and train our network using music-choreography pairs as input. Finally, a novel dance motion is generated at the inference time when only music is given as an input. We performed a user study for a qualitative evaluation of the proposed method, and the results show that the proposed model is able to generate musically meaningful and natural dance movements given an unheard song.

研究の動機と目的

既存の動きデータベースに依存せずに、新規で音楽的に意味のある振り付けを生成する課題に対処すること。
音声（音楽）と視覚的（ダンス動作）モダリティの間の複雑で非剛性な関係を、シーケンス・ツー・シーケンス枠組み内で学習すること。
動きのリトリーブやジャンル分類を必要とせず、音楽入力のみに条件づけた自己回帰的生成により、新規のダンスシーケンスを生成すること。
生成された振り付けが音楽の周期性を反映しているか、人間の観察者によって自然で適切であると認識されているかを評価すること。

提案手法

自己回帰的デコーダーを備えた二重エンコーダー構造を採用し、因果的拡張ハイウェイ畳み込み（CDHC）ブロックを用いて時系列データを処理する。
音声はメルスペクトログラム特徴量でエンコードされ、映像からの2次元ジョイント座標が運動表現として用いられる。
CDHCブロックは、拡大率（1,3,9,27,1,3,9,27,3,3）を段階的に増加させたゲート付き拡張畳み込みを適用し、長距離依存性を捉える。
デコーダーは、エンコードされた音声とスケルトン表現に条件づけ、段階的に運動フレームを生成することで自己回帰的生成を実現する。
ネットワークは、YouTubeから収集した音楽・ダンスのペア動画を用いて、シーケンス・ツー・シーケンス予測損失を最小化する形で端末から端末へと訓練される。
未知の音楽から、入力音声のみに条件づけた新しい推論パイプラインにより、運動シーケンスを生成する。

実験結果

リサーチクエスチョン

RQ1自己回帰的ニューラルネットワークは、音声入力のみから新規で自然な振り付けを生成できるか？
RQ2生成された振り付けは、ビートの同期といった音楽の周期性を反映しているか？
RQ3ベースライン手法と比較して、未知の音楽に対してどの程度一般化できるか？
RQ4人間の参加者は、モデルが生成した振り付けを音楽的に整合的で自然であると認識できるか？

主な発見

ユーザー評価では、ランダムな動きと比較して、生成された振り付けが自然さと音楽との適合性において有意に高いスコアを獲得しており、対応検定でp < 0.001であった。
自然さと音楽適合性の両面で、生成グループの平均スコアがランダムグループを上回った。これは、音楽的整合性が人間の認識に反映されていることを示している。
自己相関解析により、生成された運動が、特にy方向の動きにおいて音楽のビートと同期した周期的パターンを示していることが確認された。
運動の自己相関におけるピークが、音楽のビート位置と一致しており、モデルが音楽のリズムを正しく捉えていることを示している。
訓練データに存在しない新規の振り付けがモデルによって生成され、動きデータベースのリトリーブに依存しなかった。
限られたデータで過学習が見られた先行手法とは異なり、本モデルは一般化性能に優れており、優れた性能を発揮した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。