Skip to main content
QUICK REVIEW

[論文レビュー] Duolando: Follower GPT with Off-Policy Reinforcement Learning for Dance Accompaniment

Siyao Li, Tianpei Gu|arXiv (Cornell University)|Mar 27, 2024
Reinforcement Learning in Robotics被引用数 7
ひとこと要約

Duolandoは、音楽とリーダーの動きに条件付けられた同期フォローモーションを生成する、VQ-VAEトークン化とオフポリシーRLファインチューニング regimeを用いたGPTベースのフォローモデルをデュエットダンスの伴奏に導入します。また、DD100デュエットダンスモーションキャプチャデータセットと新しいインタラクションベンチマークを提供します。

ABSTRACT

We introduce a novel task within the field of 3D dance generation, termed dance accompaniment, which necessitates the generation of responsive movements from a dance partner, the "follower", synchronized with the lead dancer's movements and the underlying musical rhythm. Unlike existing solo or group dance generation tasks, a duet dance scenario entails a heightened degree of interaction between the two participants, requiring delicate coordination in both pose and position. To support this task, we first build a large-scale and diverse duet interactive dance dataset, DD100, by recording about 117 minutes of professional dancers' performances. To address the challenges inherent in this task, we propose a GPT-based model, Duolando, which autoregressively predicts the subsequent tokenized motion conditioned on the coordinated information of the music, the leader's and the follower's movements. To further enhance the GPT's capabilities of generating stable results on unseen conditions (music and leader motions), we devise an off-policy reinforcement learning strategy that allows the model to explore viable trajectories from out-of-distribution samplings, guided by human-defined rewards. Based on the collected dataset and proposed method, we establish a benchmark with several carefully designed metrics.

研究の動機と目的

  • リードダンサーと音楽に同期したフォローモーションを生成する新しいダンス伴奏タスクを導入する。
  • トレーニングと評価のための大規模デュエットダンスモーションキャプチャデータセット(DD100)を作成する。
  • リーダーのモーション、音楽、フォローヒストリーを考慮するGPTベースのフォローモデル(Duolando)を開発する。
  • 分布外の音楽とリーダーのパターンに対する頑健性を高めるためにオフポリシー強化学習を適用する。
  • 運動品質、インタラクション、リズム整合性の指標を備えたベンチマークを確立する。

提案手法

  • 4つのモーション VQ-VAEs(上半身、下半身、左手、右手)と相対翻訳 VQ-VAEを用いて、運動と相対翻訳を離散トークンに量子化する。
  • 音楽、リーダーのトークン、前回のフォロートークンを条件にしてフォローモーション・トークンを自動回帰的に予測する、相互作用を協調させたGPTを訓練し、未来の条件付けのためのlook-ahead機構(LAT)を導入する。
  • 10の入力モダリティを統合するため、10×10ブロック-wise下三角注意マスクを持つlook-aheadアテンション機構を組み込み、10の入力モダリティ(音楽、リーダー z、フォロワー z、tr)を融合する。
  • 分布外の将来報酬に対応するため、トークン確率をQ様値に合わせるオフポリシーRLを導入し、シグモイド写像を介して将来報酬を期待する(sigma(Q(s,a)))。
  • スケーティングアーティファクトを低減するための逐次報酬を定義し、同期誤差を計算するための速度ベースの下半身デコード分岐を含み、RL報酬を導く。)
Figure 1: Example of Duolando ’s results. The female avatar (red arrow) is driven by the proposed method to accompany real human’s (white) dancing.
Figure 1: Example of Duolando ’s results. The female avatar (red arrow) is driven by the proposed method to accompany real human’s (white) dancing.

実験結果

リサーチクエスチョン

  • RQ1GPTベースのフォロワーは、リードダンサーと音楽を条件として安定したビートに合わせたモーションを生成できるか?
  • RQ2監督付き学習のみと比較して、オフポリシーRLは未知の音楽とリーダーのモーションへの一般化を改善するか?
  • RQ3相対翻訳と相互作用協調の明示的モデリングは、フォローダイナミクスとリーダーとの接触にどのような影響を与えるか?
  • RQ4look-ahead条件付けが同期とモーションの滑らかさに与える影響は何か?

主な発見

方法FID k (↓)FID g (↓)多様性 k (↑)多様性 g (↑)FID cd (↓)多様性 cd (↑)CF(%)BED(↑)BAS(↑)
Ground Truth6.566.3711.317.613.4112.3574.250.53080.1839
S Bailando (Siyao et al., 2022)78.5236.1911.157.926643.3152.50*7.130.18310.1930
S EDGE (Tseng et al., 2023)69.1444.588.626.355894.4560.62*6.820.18220.1875
S Duolando w/o RL tr IC12.5324.1710.519.424803.2042.72*7.040.18260.1852
D Duolando w/o RL tr62.2927.9513.168.537970.1954.53*7.760.21940.2002
D Duolando w/o RL106.7234.1013.887.0321.689.3357.430.27950.2193
D Duolando25.3033.5210.927.979.9714.0252.360.28580.2046
  • RLと相互作用協調を備えたDuolandoは、ソロベースラインおよびアブレーションと比較して、インタラクションとリズム整合性を改善する。
  • DD100データセットは、トレーニングとベンチマークに用いられる、多様なジャンルのデュエットモーションキャプチャデータ(10ジャンル、約1.95時間)を提供する。
  • 定量指標は、相互作用とリズム指標(Beat Echo DegreeとBAS)でDuolandoの派生がソロ手法を上回り、運動品質(FIDと多様性)は運動学的およびグラフィカル特徴で競争力があることを示す。
  • アブレーションは、相対翻訳またはRLを除去すると性能が低下することを示し、look-aheadと相互作用協調の要素が高品質で同期したフォローモーションに寄与する。
  • RLファインチューニングは、分布外条件下での skating アーティファクトを緩和するのに役立つ。
Figure 2: Samples of DD100 dataset. The leader and the follower are colored in green and red , respectively. DD100 contains 10 dance genres, featuring a diverse range of poses and interactions, with intricate hand gestures.
Figure 2: Samples of DD100 dataset. The leader and the follower are colored in green and red , respectively. DD100 contains 10 dance genres, featuring a diverse range of poses and interactions, with intricate hand gestures.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。