Skip to main content
QUICK REVIEW

[論文レビュー] SmoothSync: Dual-Stream Diffusion Transformers for Jitter-Robust Beat-Synchronized Gesture Generation from Quantized Audio

Yujiao Jiang, Qingmin Liao|arXiv (Cornell University)|Jan 4, 2026
Music Technology and Sound Studies被引用数 0
ひとこと要約

SmoothSync はデュアルストリーム拡散トランスフォーマーを導入し、量子化オーディオとモーショントークンを融合して、ジッターを低減しフットスライディングを抑制した、多様でビート同期された全身ジェスチャーを生成。BEAT2 と SHOW データセットで最先端のリアリズムと多様性を達成。

ABSTRACT

Co-speech gesture generation is a critical area of research aimed at synthesizing speech-synchronized human-like gestures. Existing methods often suffer from issues such as rhythmic inconsistency, motion jitter, foot sliding and limited multi-sampling diversity. In this paper, we present SmoothSync, a novel framework that leverages quantized audio tokens in a novel dual-stream Diffusion Transformer (DiT) architecture to synthesis holistic gestures and enhance sampling variation. Specifically, we (1) fuse audio-motion features via complementary transformer streams to achieve superior synchronization, (2) introduce a jitter-suppression loss to improve temporal smoothness, (3) implement probabilistic audio quantization to generate distinct gesture sequences from identical inputs. To reliably evaluate beat synchronization under jitter, we introduce Smooth-BC, a robust variant of the beat consistency metric less sensitive to motion noise. Comprehensive experiments on the BEAT2 and SHOW datasets demonstrate SmoothSync's superiority, outperforming state-of-the-art methods by -30.6% FGD, 10.3% Smooth-BC, and 8.4% Diversity on BEAT2, while reducing jitter and foot sliding by -62.9% and -17.1% respectively. The code will be released to facilitate future research.

研究の動機と目的

  • コモーションジッター、フットスライド、コスピーチュアジェスチャー生成の多様性の制限を adress
  • 高リアリズムとサンプリング多様性を備えた全身・ビート同期ジェスチャーの実現
  • モダリティ別処理と横断モーダル統合を含むデュアルストリーム拡散アーキテクチャの提案
  • 時間的滑らかさと多様性を向上させるジッター抑制損失と量子化オーディオ特徴の導入
  • 頑健な評価指標(Smooth-BC)を提供し、BEAT2 と SHOW で最先端の結果を示す

提案手法

  • Quantized mel-spectrogram オーディオ特徴を SMPLX ベースのモーション表現とデュアルストリーム拡散トランスフォーマーで融合する
  • 3 段階の時間量子化とオーディオ特徴の増強を用いて、多様でありながら同期されたジェスチャーを作成する
  • 音声とモーションを別々に処理するデュアルストリームトランスフォーマーブロック(モダリティ固有正規化を含む)と、その後の結合横断モーダルアテンション
  • 高周波モーションアーティファクトを抑制して時間的滑らかさを向上させるジッター抑制損失
  • ビート一貫性のロバスト性を高め、モーションジッターの感度を低減する Smooth-BC を導入
  • 長期モーション生成はセグメントベース戦略と漸進的ブレンディングを用いて時間的一貫性を維持する

実験結果

リサーチクエスチョン

  • RQ1デュアルストリーム拡散トランスフォーマーはビートタイミングと全身ジェスチャーの同期を改善し、モーションアーティファクトを低減できるか?
  • RQ2量子化されたオーディオ表現は同期性を損なうことなく多様なジェスチャー生成を可能にするか?
  • RQ3ジッター抑制損失と Smooth-BC がモーション品質とリズム整合性に与える影響はどの程度か?
  • RQ4SmoothSync は BEAT2 に比べ SHOW のような野外データセットへどの程度一般化できるか?

主な発見

  • SmoothSync は BEAT2 と SHOW の双方で最先端の Fréchet Gesture Distance (FGD) を達成し、比較対象手法の中で最も高いモーションリアリズムを実現
  • SmoothSync は最高の intra-diversity と非ゼロの inter-diversity を提供し、サンプル内の多様性とサンプル間のバリエーションが強いことを示す
  • SmoothSync はベースラインと比較してジッターと足の滑りを大幅に低減(例: BEAT2 で最大 62.9% のジッター削減)
  • SmoothSync は頑健なビート一貫性を維持し、Smooth-BC はベースライン BC より顕著な改善を示す(例: BEAT2 で +10.3%)
  • デュアルストリームアーキテクチャとジッター損失および量子化オーディオ特徴の組み合わせにより、長期シーケンス生成が安定し、グローバル平行移動とモーションドリフトを抑制できる

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。